松田語録:Transformerの数学的基盤2〜相転移とは
今ね僕ら勉強会で勉強してるもね昨今ね 新しいペーパーが続々と出てきて1つの ことは勉強し終わる前に次のニュースが出 てきてあだから論文読み終わらないうちに 次の論文が出てきてともうね追いつかない あのよくね稼ぐに追いつく貧乏なしとか 行くと逆で働けど働けど楽にならざりほほ ほほうじっと手を見るとね勉強すれど勉強 すれど追いつかずじっとモニターを見ると いう状況そうなんかこの消化不良な感じが どんどん積み上がってきますよねああそん 中でねねま今ね実は3つほどあの積み残し てんのがあんねんけどうんま1つはねあの まこれは日本の論文でまこれ一応読んだん かあのえっとまえのトランスフォーマーの 数学的クの話ででトランスもう1つね英語 のトランスフォーマーの数学的なクこの話 は前から言うてるねあの粒子モデルっ てゅう話ですねででこれは結局ね トランスフォームのねなうちが何なの かっていうこと知りたいとだから飛行機が なぜ飛ぶかちいうこと知りたいということ とま同じ話でとこは最近ですね出てきたの がこれがなかなか興味あるペーパーで今 読んでんですがフェーズトランジションっ ていう話なんですがどういうことかっ言う たらね先ほどから空がすごいよとねいう話 で空があのCPU時間を1でま全然ダメ だったのが4倍食わすと良くなって16倍 食わすとすごくなったとじゃあ100倍 すればどうなるんかとねうんんという話が あるわけでなんでねたくさん計算すると こんなに良くなるかてこれスケーリング速 と言うんですがつまり何かね規模を大きく していくとなんかあるところでパッとね出 てくるということが今までいっぱいあった わけですねこれエマージェンスとうん増発 ですね発現象今まで数学の計算ができ なかったまあの数学っていうあの算数の 計算ができなかったのができるようになっ たからエマージェンスとなってきたわけで そのペーパーはねこのエマージェンスと いう性質をですね数式的に証明しようとし てるのよほうほうほうほうででどんなこと やるとかこれね極めて簡単な問題を出して です ね でまどんな問題かっちゅうたらね極むて 簡単ねこの15個のも場所をいてですねで アルファベット15個のアルファベットA からNぐらいかなをこれランダムにこう ばらまくんやほんならま Aもそれはバラバラになる場合もあれば AAAABBBAABBとなるような場合 もあるじゃないですかでそん時にねこの
15個ま15個でも10個でもいいんだ けどこん中になんぼ重なったものがある かっていうことを見るわけでA最初にA っていうのが出た時にですね後ろの方を見 てAが何個あるか見てAがもし3個あれば 3と答えんねで次にね次がまたAだとし たらその時も3と答えんといかんねつまり それは前も白も見ると見んといかんと全部 全部を見んといかんわけよでっていうのが 次来てねBがね2個しかなかったら2と 答えるでCがね1個しかなかったら1と 答えるという風なそういうゲームを考える わけでこん時にですねやり方としてですね このねトランスフォーマーでポジショナル エンコーディングというのがあってですね それはそのあそのまトークあるいはま単語 でもいいんだけど今の場合aとかBとか いうあのアルファベット1文字なんだけど まこれトークと言いましょうこのトークン がどの 場所にあるかという1ベクトル足し合わせ んですようんであのそのトクをですね潜在 空間に埋め込んでまこれは512次元とか 124次元空間に埋め込んでそれだけじゃ なくてそれが1番目か2番目か3番目かに 出てくるというその位を荒らす1ベクトル というものを足し合わせるとこれをあの スペースエンベッグというんねでこの1と バあの1とそのトク元の単語が一体になっ たやつがま並んでるわけまあまそれがあの トランスフマなんですよねでそん時にです ね1エンコーディングとねそれからね意味 のエンコーディングというのを考えるわけ よどういうことかっちゅうたらこの5順 だけを見ると1だけを見るとあれ自分だけ 見るとかあるいは自分の前後だけ見ると いうのは1エコーディングとまその論文は 読んでるわけところがね文脈を見ると今の 問題で言うならね自分AならAが何個ある かっちゅうの先の方まで見て先の方にAが あったらそれは自分と同じだってつまり そこにアテンションかけるということなん ですけどねこういうものセマンティックね だとま文脈を見るとまそ彼はその著者は 言うわけよでこれを数式で表現してここの 数式がねようこんな式がま正直って理解 できないのよものすごすごね長い複雑な式 ででいやこのペーパーのすごいところそれ はね数式で出したってとこすごいんですよ ふーでこんなもんがねどうして出てきたか 想像もつかないんだけどまあまあそれを 数式で出してですねでこういう図を書くん や横軸にあるパラメーターとってですね そのパラメーターねまアルファと言いんだ けどそれはねデータ数あるデータの次元数
なんですようんでこれは大体オダ1つまり データの次元数ま例えば5002限とした まデータ数が512とでこれこれが1つ パラメーターもう1つはねまオメガって いうのまこれはなかなかあのそのうん アテンションが1アテンションの部分と それからあそのセマンティックな アテンションの部分のその割合がこれオメ ガてうんだけどまこれはねまあまあこれ フィックスしたもでで問題アルファなん ですよアルファというのはデーター終わる 次元なんですよほうほうほうほうこいう もんねで横軸にアルファとって多にまオメ ガていうパラメーターとってですねその1 位を見てるのかあるいはセマンティック 意味を見てるのかということで分けた時に 綺麗にピシッと線が引けんねん ええであるところでフェーズチェンジ フェーズトランジョン転移を起こすとおお ま意味がね急に分かり出すというわけおお ではねま言うなら文章を見た時にねま有的 に言うなら5順だけから意味は判定しとっ たとああえあさっきのなんかややこしい式 はどこで入ってるんですか今のでいやだ からそのこの絵を書く時にそれを使うわけ ああはどっちの計算でアルファの計算です かいやあいやいやここのえオメガえ横いや アとオがパラメーターでこれ何をあれは何 かあうんあねこういうこととか言ってあの ねlちゅうかねあディープラーニングって 損失関数ちゅもんがあるのようんねで損失 関数を最小にするんですようんうんうん うんで損失関数最小でポイントはね損失 関数がねミニマムな最初のところがね1 箇所じゃないってことああ1箇所のな場合 をねこれをね突関数というのほほうほうほ 突関数っていうのはこんな格好ねええ凸で 下に凸ですよええで凸じゃないっちいうの は例えばこんな風になってるええでその 損失関数が最小ちゅうのがね凸ならね1 箇所で終わるここにくれば最適なんですよ ねあれエネルギーと言ってもいいのよねま 物理系で言うならエネルギーが最初のとこ に行くわけですよところがねこれがねあの 突関数じゃないからね最適界が2つあるん ようんで1つがそのね一円コーディングで 1つが意味の円おおそうなんですかうん ああ最初は両方共有あの存在するんああ はあところがですねパラメーターを書いて いくとこの格好がですね変わっていくんや ああてですねその1えあ1のああその平行 点がなくなってね ああつまりまあのまそれま彼は意味と セマンティックて言ってんだけど セマンティックなあのアテンションで
先ほどのモデルで言うならさっきのAAが あったと先の方見てどんだけ絵が先にある かっていうことを見るってことですよで1 ちゅうのはもう前後だけ見 るってことですよねうんでだからつまり フェーズトランジションつまり意味が 分かるというのはフェーズトランジション だっっていうのがそのペーパーの主張で うんうんうんでそれを具体的に今た単な モデルでほほかつエグザクトな数式を出し てええでその損失関数を求めたらでそれが フェーズトランジションそうつまりなんか パラメーター変えるとその2つミニマムが あったところが1つになるとでもう1つの 位置の安定点っていうのが消えるとでこれ はねこういうその総点っていうのは物理 現象でいっぱいあるんですよええで社会的 な現象でもあるんですよこういうのは複雑 系というのよで複雑系ちゅうものはですね あるパラメーターがあってある程度異常に 複雑になると相転移を起こすんですよだ から複雑になれば相転移を起こすという ことだから言語というものもですねあれ 知能というものも非常に簡単なものは簡単 な知能とかいうものはま知能なんで知能が 発生したかってやっぱり人間の頭が大きく なったからなんですよ ええで動物ももちろん知能持ってるけど それもね動物の知の脳が大きくなってきた からね相転移を起こしたわけほんで知能が 発生しただから人間ぐらいの大きさのの脳 になったら人間的知能が発相転移でやね エマージ発生したんですよだからこれはね このミクロのプロセスそのミクロを見てて もダメでこのマクロ共同現象なんですよね あの共同現象っていうのはお互いがねその 関係し合うまあテンシンっていうのは そんなもんじゃないですかというわけでだ からこのいろんな現象がこの特に地のとか 言語とか意味ってなものがみんな基本的に 増発現象であり総転移の現象であり複雑性 の現象だとうんうんうんだから先ほどの今 のllmで規模を大きくしてね空みたいな もん出てきたとあるいはサマルトマのね7 どるとかいう話もみんなそこへ修練して いくつまり規模を大きくすれば機械知能が 機械超知能になるというまこれは可能性 ですけどねだからこれは極めてね大きな話 だと僕は思うんだけど面白いですねその 理論解明する人はやっぱりすごいですね うんこれうんすごいやっぱ物理学者っぽ いっていうのは確かによく分かりますね そういう話聞いてるとねこのペーパーね スイスの人がやったえ物理やっぱ物理学の 人がやっぱそういうの新しい問題を見つけ
たっていう感じなんでしょうかね このすごいなモデル化して仮説立てて すごい意識立ててでなんかいろんなことを 解き明かしていくっていうプロセスって いうのはもうまさに物理だというのを 改めて感じましたねそのすごい式っていう のをいぺ見てみたいですけど も面白いなと思いますねこれ出せそうに ないですわああちょっと松田先生も発見を してくださったらいいなと思いますけど どうしたらいいんでしょうかね誰か いっぱい学生つけたらいいんでしょうかね うん小林さん数学先行やから小さんいやあ 私は全然もうあのあのなんてか大した レベルじゃないので秘密の研究所に ちょっとどっかからお金もら人を集める あの1兆円ぐらいもらって人集めてね なんか研究開発したら結構ねいつも妄想 そういう妄想はしてるん ようんそうれ妄想じゃなくて現実になれば 世の中変じという気はしますけどねえま この話はまだまだ続くということですので 引き続きまたお話をえ教えていただきたい と思います
収録日:2024年2月20日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は相転移について。
参考文献
A phase transition between positional and semantic learning in a solvable model of dot-product attention
Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová
arXiv:2402.03902
出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
塚本昌彦 神戸大学教授
小林秀章 セーラー服おじさん
保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)
