松田語録:Metaの新アーキテクチャー〜自己報酬型言語モデルとは
さあメタですけどもあだからいやまず話の 口あの小林さんから聞いてくださいよあ そうですねえっとまたまたま偶然見たん ですけれどもえっと要はAIのllmで なんか新しいアーキテクチャーをメタが 考えたぞとでうなんとなく教科学習っぽく て自己報酬型言語モデルと言ってなんかA が自分自身に報酬を与えて進化するみたい なえって これ前回まマンバが出てが出てあいや話は 全然違うんですよあまそれ僕ペジが全然違 うということですか僕はペーパー読んだん やけどうんああそれはねいやまあ今小林 さんおっしゃったことはそらたしやけだ けど多に見出しがそうなってたっていう だけで実態は私踏み込めてないのではいだ けど教科学習って言ったら9スタぽいな いやいやそそんな話た全然違報つったから そうまた違うんですかえどんな話ですか ええいやまずねあるモデルがあってででそ それ をあどいたいいかなそいつがね次の バージョンの あのな何か言うてその採点をねえ答えって いうのがあるじゃないですかこの答えをね あのAIに採点させるんよはいだからAI あの えっとヒーマンのフィードバックじゃなく てAIのフィードバックなや けどでででリボードをですね自分で作るん だってでで次の新しいバージョン作ると ああなんかじゃあ自動教化学習みたいな 感じうんところがね今ま実際にやったこと はM1M1っていうのはモデル1でM2M 3とここまでなんや ああいやこんなものね無限にね良くなって いくはずがないんでどっかでちるんですよ そうあは無限にだけどプロセスとしては 繰り返すことはできますよねうんででも 常識的に考えてどっかで察ちるだろうあ 良くならないっていうことですかいやだ から自分で自分を改良するんだだけどえ いやほんでね 実際で実験やったんですねえどうなったか と言うとあのねチャットGPTに匹てと いう風にねええいやがGPT4に匹敵と いう風に歌ってはいるんだけどそれはね 厳密に言うとねそれはまたあの持ってる わけやどういうことかち言ったらGPT4 も あの性能が違うじゃないですかだから去年 の3月段階のGPT4とええそれから6月 段階だったらだいぶ落ちたのね能力が ああで次にまたGPいやいやプラスかえ いやいやターボかターボはターボですね
うんターボに比較したら負けるんですよあ 明らかにはいはいだけど古いバージョンの GPT43月14日バージョンええとか6 月何日の劣化 バージョンぐらいにまではい行くとうん ああというまあまあそういうペーパーが出 たってことではトランスフォーマーじゃ ないんですかいやトランスフォーマーです よあトランスフォーマーベースで強化学習 入れたてうんというか結局AI フィードバックでああAIで自己うん自己 なんて言うんですか自己リファイメント 何を変えていくんですかモデルのどこの 部分をまウェイトは今まで別にあのRL HFのところのヒューマンなところがAI になったって感じですかね多分そうだと 思いますねそれかプロンプト自身も変える んじゃないかっていや聞き方のねうんいや ここはねまだねあのいや正直言ってあの 呼んだんだけど完璧には理解しきれてない ですよ成果の点だけ分かったけどね今みた にはいあの他のあのえモデルを凌ぐとうん だけどまGPT4に匹敵と言うけど今 みたい古いGPT4に匹敵とあ うんなるほどまでも能力はま置いといても でもその仕組みっていうのはあれですよね まさにシンギュラリティのそうそうあれ 向かっていくになりそうそうそうそうそう そうそうそうだからこれ今まあのテスト 段階 でだから今ねあのシンセティックデータっ ちう話あるじゃないですかだからデータを 自分で作るっちゅう話ねうんあのAIが それと同じようにですねあのだからAI 自身がいろんなやり方で自分を強化して いくというのが今後のトレンドになるん じゃないですかねうんそうなると怖いすね 事実性ですよねそうそうそうそう結構あ あのジパーあんまり関係ないですかあ関係 ないジパーの話なんか全然出てこないよ ああいや関係してないんですかいやだから ね僕ねこれヤルカはね今のllmは全然 ダメだってさに行ってんだけどメタがやっ てることは今のllmも非常に強化してる んですよ ああそうかじゃじゃあ必ずしもヤルカの 移行があの組織全体に反映されて るってわけでもないうんヤルカはねあのの いや基本的な考え方はAIに対する非常に ねポジティブな見方ね あああ今のAIじゃないですよねそれは いやAI一般に関してあ全般ねとですよね あの他のね愛が危険だ危険だっちゅうああ そういう意味ですか落の落の楽観論楽観論 じゃ大したことないとあその問題はないと
でむしろ未来は明るいとねその話とねで今 のllmがダメで今の自分のジェパとが 言ってるけどこのことはさっきの ザッカーバーグがねさに言うなジバのこと なんか言わないですよだから要すに今の llmを強化するっちゅう方向を今あの メタがやってるわけじゃないですかラマっ てそうでしょはいラマて今のllmその ものじゃないですかでそれをあのGPT4 なんとか抜かすとすることやってるわけで その点はあのヤルカの意向とは違うわけよ ねおおまヤルカもねジャパ jパスタかてゅうとそんなことないんです やうんいやもちろんあの出してきた出て ましたよねうん出てましたでそれもねあの 他のんと比べてちょっと良くなったとか いう程度でもしねヤンカの言葉そのまま 受け取るならですねものすごく良くならん といかんわけえ ええそれがそうじゃないからねだから いやいやいやでこれがね今後のあのいや 明後日のテーマになると思うんだけどええ 今のトランスフォーマー 明日明日幸て幸幸ってか今の トランスフォーマーのアーキテクチャーで このまま行けるのかあああのこのままちう ねasiに行けるのかえ何か別のがいるの かと えいうのが大きな問題になるでしょうね からトランスフォーマーじゃないガラっと 違った新しいアーキテクチャーってのもま 夢があっていいわけですけどただそこへ 全部つぎ込んじゃうわけにいかないですね ここへ全部かけちゃうわけにはいかないの でこちこで今の改良路線はやりつつ一発 逆転路線も両方やってくって感じなん でしょうねうんうんまそれに関してはあの 前言ったかなあのえマンバかンバうんあれ もねだいぶ勉強したんやけどあの確かにね トランスフォーマーと全然違うんやあ違う んだけどね基本的な考えベーシックは同じ だと僕は思うんよああうんどういうこと かっちゅったらあまこれは次に話した方が いいんだけど要するにはいはいま次に置い ときますいや置いときましょうあそれね僕 調べてね面白いことがあったこのマンバの ペーパーを書いたガオという人をちょっと 調べてみたいやええええほんならね偉く 若いのねああそうですかで彼はね金木 メロン大学のねアシスタント プロフェッサーね ああつまり女教授ねうんででアメリカの システムはアシスタントプロフェッサーの 上がアソシエイトプロフェッサーでしょ うんでその上がフルプロフェッサーですよ
ねだから日本で言うとアシスタント プロフェッサー女手なのねええで彼はね ドクターロムが去年出てんのよ ああでで彼の一連のねあのペーパーあの いや1番新しいのマンバやけどそれ以前に ねあのいっぱい出しててまマンバの時に 説明したようにあの状態空間モデルねええ えああいうことをあの継続的に21年22 年ああ23年24年と おおいやまま4年まだやけどやってるとで 僕はそのねデロというのはダウンロードし てきたけやおそうですか100何ページも あるのね ええでこれを読まんといかんなと思っ ええいやでも未来のジェフリーヒント みたいな人になるかもしれない 優来活躍しますからねうんしかもね彼がね あの今言たカネウエルのあの女教授である と同時にですねGoogleDEEP マイドと一緒にやってみるあその中の ナンドデフレイタっていうまあのええ出て きてますねここでなうんうん彼はあのガト の責任者やああ うでそのチームに入ったちは これでね思ったことはねねうんあの ディープマインドってまGOの一部じゃ ないですかねだからGoogleDEEP マインドは今の例のあのジェミナイを出し たけどやねえ出したけどこのそのマンバて いうアーキテクチャーも使えるわけよええ そうですかで前マンバの説明の時に Googleがそのあのトランスフォーム のあのあのあれを持ってるからあのえっと 特を持ってるからマイクロソフトは困る ねっていう話をちょっと言うてでマンバ みたいなもんが出てきたらいいねって言っ たけどこのマンバがGoogleDEEP マインドその総子者がGoogle DEEPマインドで入っとるわけあは じゃあGoogleで特許撮ってるかも しれないって話ですねいやGoogleで 撮るかなあるいは金メロンで撮ってるかも しれんからねそこはわかりだけど GoogleはGoogleでその発展形 みたいなってるかもしないですね多分ね 多分 ねしないといけないですねなるほど何の話 だったか忘れましたけどもメタのえメタの 話でしたっ けあれ違ったっけあれスタートはそうでし たねいやいやメタのその事故で改良すると いうあそうそうそうセルフリウデンラング エジモデルズっていうものらしいですけど ねはいうんじゃあま引き続き注目していき ましょうということではいはいはいはい
はい
収録日:2024年1月25日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回はMetaの新アーキテクチャー、自己報酬型言語モデルとはというお話です。
出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
塚本昌彦 神戸大学教授
小林秀章 セーラー服おじさん
保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)

4 Comments
自己報酬型は危ない気がするなあ。やっぱり価値評価だけは人間様が決めてやらないと、機械側の価値観だけに走った俺様AIができさうな気がする。
RLHFのhumanの部分を自動化したのであれば、人間のフィードバックと機械によるフィードバックを同質なものにできるような工夫がしてあるのでしょうか?
いずれにしても、逐一軌道修正はしなければならないでしょうし、高品質にしていく過程の一部を高速化したという感じでしょうかね
今回の話とは関係ないのですが、言語は心や感情、クオリアなどの要約である、という仮説、妄想を私は持っていて、ずっとそれを発展させようと考えてきました。1/30日の朝に、ある方向性が見えて、「死んだらAIになりたい」「ASIへの道」につながる糸口になるかもしれなくて、しかも個人のパソコンレベルでももしかしたら演算可能かもしれないような気もするので、ひとりで勝手にわくわくしています。
リクエスト
あまり、日本では、生成AIばかりが話題になっているので、できればこちらで解説してもらいたいのです。
Andrej Karpathyが2017年に提唱したSoftware 2.0について。
こちらも、地味に凄いことだと思っているので。
今年の、中島聡氏のメルマガ『週刊Life is beautiful 2024年1月2日号』からの抜粋です。
Teslaの自動運転システムには、v11まで30万行の(人間が書いたC++)コードが含まれていましたが、v12からはその全てをニューラルネットで置き換えることに成功したそうです。
その根幹になるのが、Andrej Karpathyが2017年に提唱したSoftware 2.0で、それが何を意味するのかを理解して初めて、今起こっている技術革新が何なのか、そして、どんなインパクトをこの業界だけでなく、社会全体に与えるのかをイメージできるようになります。
Software 2.0とは、ひとことで言えば「人間(ソフトウェア・エンジニア)がちまちまとアルゴリズムを組み立てる時代から、ニューラルネットワークを活用して、マシンそのものにアルゴリズムを作らせる時代」を意味します。
Teslaは、全てのモジュールをニューラルネットに置き換えることにより、自動運転システムから人間が書いたコードを排除することに成功しました。Teslaは世界中にあるTesla車から集めた映像データを運転手の操作と共に記録し続けているため、今後は、それを学習データとして、自動運転システムを改良していくことが可能になります。
※一部、書き換えました。抜粋は、ここまで。
Andrej Karpathyは、元Openaiにいて、テスラに引き抜かれ、Elon Muskと数年仕事をして、疲れ果てて、また、Openaiに戻った人。以下、mediumの論文。
karpathy.medium.com/software-2-0-a64152b37c35
また、世界中から送られてくる画像を解析し学習する独自設計したスパコン『Dojo』も稼働するとのこと。
2週間程前、私がコロナに感染して時間があったため、積んでいたElon Muskの自伝を読みました。彼が人間的に問題があるとされる一方で、何度も破産の危機に陥りながらもサンダーバード1号のようなロケットを完成させた経緯が分かりました。
私自身、鄧小平氏の「黒い猫でも白い猫でも鼠を捕る猫が良い猫だ」という考えに賛同。2020年3月、コロナで、暴落したときに、GoogleとNVIDIAの株を少し買っていた身としては、直接関わりのない人物であれば、人間性に多少の問題があっても、成果を上げればそれで良いと考えています。