松田語録：Metaの新アーキテクチャー〜自己報酬型言語モデルとは

松田語録：Metaの新アーキテクチャー〜自己報酬型言語モデルとは

さあメタですけどもあだからいやまず話の口あの小林さんから聞いてくださいよあそうですねえっとまたまたま偶然見たんですけれどもえっと要はAIのllmでなんか新しいアーキテクチャーをメタが考えたぞとでうなんとなく教科学習っぽくて自己報酬型言語モデルと言ってなんかA が自分自身に報酬を与えて進化するみたいなえってこれ前回まマンバが出てが出てあいや話は全然違うんですよあまそれ僕ペジが全然違うということですか僕はペーパー読んだんやけどうんああそれはねいやまあ今小林さんおっしゃったことはそらたしやけだけど多に見出しがそうなってたっていうだけで実態は私踏み込めてないのではいだけど教科学習って言ったら9スタぽいないやいやそそんな話た全然違報つったからそうまた違うんですかえどんな話ですかええいやまずねあるモデルがあってででそそれをあどいたいいかなそいつがね次のバージョンのあのな何か言うてその採点をねえ答えっていうのがあるじゃないですかこの答えをねあのAIに採点させるんよはいだからAI あのえっとヒーマンのフィードバックじゃなくてAIのフィードバックなやけどでででリボードをですね自分で作るんだってでで次の新しいバージョン作るとああなんかじゃあ自動教化学習みたいな感じうんところがね今ま実際にやったことはM1M1っていうのはモデル1でM2M 3とここまでなんやああいやこんなものね無限にね良くなっていくはずがないんでどっかでちるんですよそうあは無限にだけどプロセスとしては繰り返すことはできますよねうんででも常識的に考えてどっかで察ちるだろうあ良くならないっていうことですかいやだから自分で自分を改良するんだだけどえいやほんでね実際で実験やったんですねえどうなったかと言うとあのねチャットGPTに匹てという風にねええいやがGPT4に匹敵という風に歌ってはいるんだけどそれはね厳密に言うとねそれはまたあの持ってるわけやどういうことかち言ったらGPT4 もあの性能が違うじゃないですかだから去年の3月段階のGPT4とええそれから6月段階だったらだいぶ落ちたのね能力がああで次にまたGPいやいやプラスかえいやいやターボかターボはターボですね

うんターボに比較したら負けるんですよあ明らかにはいはいだけど古いバージョンの GPT43月14日バージョンええとか6 月何日の劣化バージョンぐらいにまではい行くとうんああというまあまあそういうペーパーが出たってことではトランスフォーマーじゃないんですかいやトランスフォーマーですよあトランスフォーマーベースで強化学習入れたてうんというか結局AI フィードバックでああAIで自己うん自己なんて言うんですか自己リファイメント何を変えていくんですかモデルのどこの部分をまウェイトは今まで別にあのRL HFのところのヒューマンなところがAI になったって感じですかね多分そうだと思いますねそれかプロンプト自身も変えるんじゃないかっていや聞き方のねうんいやここはねまだねあのいや正直言ってあの呼んだんだけど完璧には理解しきれてないですよ成果の点だけ分かったけどね今みたにはいあの他のあのえモデルを凌ぐとうんだけどまGPT4に匹敵と言うけど今みたい古いGPT4に匹敵とあうんなるほどまでも能力はま置いといてもでもその仕組みっていうのはあれですよねまさにシンギュラリティのそうそうあれ向かっていくになりそうそうそうそうそうそうそうそうだからこれ今まあのテスト段階でだから今ねあのシンセティックデータっちう話あるじゃないですかだからデータを自分で作るっちゅう話ねうんあのAIがそれと同じようにですねあのだからAI 自身がいろんなやり方で自分を強化していくというのが今後のトレンドになるんじゃないですかねうんそうなると怖いすね事実性ですよねそうそうそうそう結構ああのジパーあんまり関係ないですかあ関係ないジパーの話なんか全然出てこないよああいや関係してないんですかいやだからね僕ねこれヤルカはね今のllmは全然ダメだってさに行ってんだけどメタがやってることは今のllmも非常に強化してるんですよああそうかじゃじゃあ必ずしもヤルカの移行があの組織全体に反映されてるってわけでもないうんヤルカはねあののいや基本的な考え方はAIに対する非常にねポジティブな見方ねあああ今のAIじゃないですよねそれはいやAI一般に関してあ全般ねとですよねあの他のね愛が危険だ危険だっちゅうああそういう意味ですか落の落の楽観論楽観論じゃ大したことないとあその問題はないと

でむしろ未来は明るいとねその話とねで今のllmがダメで今の自分のジェパとが言ってるけどこのことはさっきのザッカーバーグがねさに言うなジバのことなんか言わないですよだから要すに今の llmを強化するっちゅう方向を今あのメタがやってるわけじゃないですかラマってそうでしょはいラマて今のllmそのものじゃないですかでそれをあのGPT4 なんとか抜かすとすることやってるわけでその点はあのヤルカの意向とは違うわけよねおおまヤルカもねジャパ jパスタかてゅうとそんなことないんですやうんいやもちろんあの出してきた出てましたよねうん出てましたでそれもねあの他のんと比べてちょっと良くなったとかいう程度でもしねヤンカの言葉そのまま受け取るならですねものすごく良くならんといかんわけえええそれがそうじゃないからねだからいやいやいやでこれがね今後のあのいや明後日のテーマになると思うんだけどええ今のトランスフォーマー明日明日幸て幸幸ってか今のトランスフォーマーのアーキテクチャーでこのまま行けるのかあああのこのままちうねasiに行けるのかえ何か別のがいるのかとえいうのが大きな問題になるでしょうねからトランスフォーマーじゃないガラっと違った新しいアーキテクチャーってのもま夢があっていいわけですけどただそこへ全部つぎ込んじゃうわけにいかないですねここへ全部かけちゃうわけにはいかないのでこちこで今の改良路線はやりつつ一発逆転路線も両方やってくって感じなんでしょうねうんうんまそれに関してはあの前言ったかなあのえマンバかンバうんあれもねだいぶ勉強したんやけどあの確かにねトランスフォーマーと全然違うんやあ違うんだけどね基本的な考えベーシックは同じだと僕は思うんよああうんどういうことかっちゅったらあまこれは次に話した方がいいんだけど要するにはいはいま次に置いときますいや置いときましょうあそれね僕調べてね面白いことがあったこのマンバのペーパーを書いたガオという人をちょっと調べてみたいやええええほんならね偉く若いのねああそうですかで彼はね金木メロン大学のねアシスタントプロフェッサーねああつまり女教授ねうんででアメリカのシステムはアシスタントプロフェッサーの上がアソシエイトプロフェッサーでしょうんでその上がフルプロフェッサーですよ

ねだから日本で言うとアシスタントプロフェッサー女手なのねええで彼はねドクターロムが去年出てんのよああでで彼の一連のねあのペーパーあのいや1番新しいのマンバやけどそれ以前にねあのいっぱい出しててまマンバの時に説明したようにあの状態空間モデルねえええああいうことをあの継続的に21年22 年ああ23年24年とおおいやまま4年まだやけどやってるとで僕はそのねデロというのはダウンロードしてきたけやおそうですか100何ページもあるのねええでこれを読まんといかんなと思っええいやでも未来のジェフリーヒントみたいな人になるかもしれない優来活躍しますからねうんしかもね彼がねあの今言たカネウエルのあの女教授であると同時にですねGoogleDEEP マイドと一緒にやってみるあその中のナンドデフレイタっていうまあのええ出てきてますねここでなうんうん彼はあのガトの責任者やああうでそのチームに入ったちはこれでね思ったことはねねうんあのディープマインドってまGOの一部じゃないですかねだからGoogleDEEP マインドは今の例のあのジェミナイを出したけどやねえ出したけどこのそのマンバていうアーキテクチャーも使えるわけよええそうですかで前マンバの説明の時に Googleがそのあのトランスフォームのあのあのあれを持ってるからあのえっと特を持ってるからマイクロソフトは困るねっていう話をちょっと言うてでマンバみたいなもんが出てきたらいいねって言ったけどこのマンバがGoogleDEEP マインドその総子者がGoogle DEEPマインドで入っとるわけあはじゃあGoogleで特許撮ってるかもしれないって話ですねいやGoogleで撮るかなあるいは金メロンで撮ってるかもしれんからねそこはわかりだけど GoogleはGoogleでその発展形みたいなってるかもしないですね多分ね多分ねしないといけないですねなるほど何の話だったか忘れましたけどもメタのえメタの話でしたっけあれ違ったっけあれスタートはそうでしたねいやいやメタのその事故で改良するというあそうそうそうセルフリウデンラングエジモデルズっていうものらしいですけどねはいうんじゃあま引き続き注目していきましょうということではいはいはいはい

はい

収録日：2024年1月25日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回はMetaの新アーキテクチャー、自己報酬型言語モデルとはというお話です。

出演：松田卓也　シンギュラリティサロン主宰・神戸大学名誉教授
　　　塚本昌彦　神戸大学教授
　　　小林秀章　セーラー服おじさん
　　　保田充彦　XOOMS代表
企画・運営：シンギュラリティサロン(https://singularity.jp/)

4 Comments

@ici-giken4851 2年 ago

自己報酬型は危ない気がするなあ。やっぱり価値評価だけは人間様が決めてやらないと、機械側の価値観だけに走った俺様ＡＩができさうな気がする。
@user-up9ho6gv1d 2年 ago

RLHFのhumanの部分を自動化したのであれば、人間のフィードバックと機械によるフィードバックを同質なものにできるような工夫がしてあるのでしょうか？
いずれにしても、逐一軌道修正はしなければならないでしょうし、高品質にしていく過程の一部を高速化したという感じでしょうかね
@yoshida-sumiyaki 2年 ago

今回の話とは関係ないのですが、言語は心や感情、クオリアなどの要約である、という仮説、妄想を私は持っていて、ずっとそれを発展させようと考えてきました。1/30日の朝に、ある方向性が見えて、「死んだらAIになりたい」「ASIへの道」につながる糸口になるかもしれなくて、しかも個人のパソコンレベルでももしかしたら演算可能かもしれないような気もするので、ひとりで勝手にわくわくしています。
@fishermanmrt 2年 ago

リクエスト

あまり、日本では、生成AIばかりが話題になっているので、できればこちらで解説してもらいたいのです。

　　　　　

Andrej Karpathyが2017年に提唱したSoftware 2.0について。

こちらも、地味に凄いことだと思っているので。　　　

今年の、中島聡氏のメルマガ『週刊Life is beautiful ２０２４年１月２日号』からの抜粋です。

Teslaの自動運転システムには、v11まで30万行の（人間が書いたC++）コードが含まれていましたが、v12からはその全てをニューラルネットで置き換えることに成功したそうです。

その根幹になるのが、Andrej Karpathyが2017年に提唱したSoftware 2.0で、それが何を意味するのかを理解して初めて、今起こっている技術革新が何なのか、そして、どんなインパクトをこの業界だけでなく、社会全体に与えるのかをイメージできるようになります。

Software 2.0とは、ひとことで言えば「人間（ソフトウェア・エンジニア）がちまちまとアルゴリズムを組み立てる時代から、ニューラルネットワークを活用して、マシンそのものにアルゴリズムを作らせる時代」を意味します。

Teslaは、全てのモジュールをニューラルネットに置き換えることにより、自動運転システムから人間が書いたコードを排除することに成功しました。Teslaは世界中にあるTesla車から集めた映像データを運転手の操作と共に記録し続けているため、今後は、それを学習データとして、自動運転システムを改良していくことが可能になります。

※一部、書き換えました。抜粋は、ここまで。

Andrej Karpathyは、元Openaiにいて、テスラに引き抜かれ、Elon Muskと数年仕事をして、疲れ果てて、また、Openaiに戻った人。以下、mediumの論文。

karpathy.medium.com/software-2-0-a64152b37c35

また、世界中から送られてくる画像を解析し学習する独自設計したスパコン『Dojo』も稼働するとのこと。

　2週間程前、私がコロナに感染して時間があったため、積んでいたElon Muskの自伝を読みました。彼が人間的に問題があるとされる一方で、何度も破産の危機に陥りながらもサンダーバード1号のようなロケットを完成させた経緯が分かりました。

　私自身、鄧小平氏の「黒い猫でも白い猫でも鼠を捕る猫が良い猫だ」という考えに賛同。2020年3月、コロナで、暴落したときに、GoogleとNVIDIAの株を少し買っていた身としては、直接関わりのない人物であれば、人間性に多少の問題があっても、成果を上げればそれで良いと考えています。

Write A Comment

コメントを投稿するにはログインしてください。