Search for:



松田語録:Transformerの数学的基盤〜Mambaを超えて?

これねあのさっきマンバの話をしたんだ けどええこのマンバをまペーパーはあるん だけどこれ紹介するねYouTubeちゅ のがあってえこれがね50分もあってこれ がねなかなか詳細にねあのま話してはるん ですよああはあはでところがねその人が ですねまたねそのマンバを超えてという うんそういうYouTubeを出してはっ てですねでそれがあるペーパーを紹介し てるんですよでこれをね僕見てねこれはね 僕から見て画期的だと思ったわけであ マセマティカ パースペクティブオンtransfという ペーパーがあってはいででこれもうね アメリカのどこかの大学とフランスのどか の大学ま数学者ですわ ああででま僕は今ペーパーのま実は2章 まで呼んだんだけどま内容はま検討はつく とでこの考え方は僕はもう前々からこう だって思っててええええでま僕の勉強会の 中でこうだって言ってたわけなんですよえ でででこれは僕だけが知ってると思ったん だけどどっこいそうじゃなくてええやっぱ 世界は広いから同じことを考えてる人が おってでしかももっと私よりも完璧に数学 的に定式化したでペーパーを出してきたと でどういうことかと言とですねうんうん トランスフォーマっちゅうのはねと文章 ちゅうのは単語の列じゃないですかえええ ええトークまトクなんだけどねまトクって 言ても単語って言ってもいいよねでセルフ アテンションっちゅうのがありますよねっ てねこれはあ1つの単語を取られた時に これが他の単語をどんだけアテンションを かけるかということでしょえええええこれ はね僕らの専門あ僕は宇宙物理なんだ けど今星星団があったと思いましょ考え ましょうとねこの星はねどう動くかという と周りの星の引力を受けて動くわけです あははははねええこの引力ちゅうのが アテンションなんですよおおだからこれ 星団の力学と同じだっていうと僕は前々 から視聴してたわけえええええええだから これをね長期間やるとですねこの星団がね こう固まるわけよええこれクラスタリング ねええで最終的に1点に落ちてしまうのよ これ重力崩壊コラプスと言うんですようん うんでそうなるだろうって言ってたわけで そのことを今のペーパーが同じこと言って ただこの人たちは宇宙物理学を知らない から僕のように星団とは言ってなくて 要するにた粒子系 ああがお互いに総合作用するとえええええ でですねトランスフォーマーっちゅうのは ねこう層がいっぱいあるじゃないですか

例えば96段とかあるわけよあそで下から トクの列単語の列が入ってくるでしょええ まこれがですね1段1段超える時にですね このセルフアテンションの層を通るわけよ うん時にこのトークがですねこれベクトル 空間の中の1位なんですよねうんで星団は 3次元空間の中の1点なんだけどそれがね もっと高次元の1000次元とか1万次元 の空間の中の点とまそういう区間の中の星 だと思うんですよねこれが1段通過すると ですねその位置が変わるわけよお互いの 総合作用でうんでまたもう1段過ぎると また変わるわけようんでだんだんこう 変わっていくというのはねこのね代わりを これを時間とえと言うんですよえ何とえ 時間間あ時間はいうんで トランスフォーマーはねうんこう日産的な 時間だとうんねで本来ねDXDT=なん たらという時はこれ連続的な時間なのね うんだからこれトランスフォーマーをです ね連続時間化するわけよ でトランスフォーマーっちうのは本来は 連続なんだけどそれを算的にしたとうん うんでこの微分方程式をでコンピューター でやる時は理3化すというのやるわけで 時間をデルタTで刻むわけじゃないですか えええええええでそれが トランスフォーマーだっというわけですや うんだから本当はこねこのト君がお互いの 引力でこう動いていくんだけど本当は連続 時間だとだから無限のダがある トランスフォーマーとま思ったらいいわけ ですようんでそういう風に考えようという わけという考え方だとと言うた分かります うん分かりました前からおっしゃってる話 ですねそうそうそうああそれだから宇宙の 星団じゃなくて粒子というの言葉に 置き換えて説明したらどうだということと トランスフォーマーのその計算というのが まさにそれと合致してるっていうところを ちゃんと書いてるわけですねそこそううん でねさらにね重要なのがセルフ アテンションともう1つねね ノーマリゼーションていうのがあるのほう ほうほうほうでレアノーマリゼーションて いうのノーマリゼーションていうのは何か と言うとうんこのねトークあこれベクトル なんだけどベクトルの長さをね全部等しく するのようんうんうんうんこれ企画かと いうんだからこれ長さ1うんうんにする わけそうするとね2つの普通ね星の間のね 引力ちいうのはこの間の距離ユークリッド 距離の1/じゃないですかニュートンの 引力はねところですねトク間のねこの引力 ちゅうのは何かと言うとですねcosシな

んですようんうんうんうんあれC角度うん うんでなんで角度ニこのねユークリッド 距離じゃないのはなぜかと言うと企画化さ れてるからうんあらゆるトークベクトの長 さが1だからうんこれの間の距離ちゅうの はcos類度で表されるんですうんでこれ がねn次元空間だの中にあるとしますよね でこれを企画化するとですねN-1次元の 長球面の上にあるわけようんうんでこれを 彼らはねこれを多用体と呼んでるわけです ようんうんで多様体だからねこの天の上に あるのはね球面長球面ですからね決して ユークリッド空間の上にあるわけじゃない のよねうんつまり曲がった空間の中に点が あるわけですようんうんうんうんですから トランスフォーマーのねオペレーション ちゅうのがあってですねまそれ京急天地V と言うんだけどうんでそれにソフト マックスを噛ませるそれに最後にね ノーマリゼーションのオペレーターを かけるんだよでそれをねそれはあの節平面 にうん射影するとまま彼ら読んでんだけど ねまつまりそういうその多用体の上にない といかんという制限をかせたまその2つの 操作ねトランスフォーマーと ノーマリゼーションとこの操作でま全ての ことが説明できるよとだからまその要する にトランスフォーマーの動きをですね引か 科学的なイメージにするとででやってみる とですね最終こ集集まっていくわけ当然 引力ですからねで極端に言えば最初はね クラスターになると言ってんのようんうん うんで最終的に1てくで1てにくというの はどういうことかっ言うたら次に予測する 単語が後だっていうことですよああはあで クラスターなるっていうのはそれがね次に 予測する単語が複数だってことなんですよ ねうんうんうんうんうんうんという風なま 科学的なイメージがうん湧くよという ペーパーでただですねあの本当の トランスフォーマーはKV天地とか ややこしいことやってんだけどここをです ねなかなか科学的にイメージするのは なかなか難しいんで僕は今思ってんのは kqVを全部同じとそうするとあのWKと かWはユニットマトリクスとまそれにXを かけWにXをかけるんだけどこのWが ややこしいもんが普通なんですがここを あの単位えっと対格用単位用力とすると いう簡単化をするとうん底もQもVも みんなX自身になってその場合はねお互い の自己重力ということでまピクチャーでき んだけど本当の場合はこの相互サヤが 極めて複雑な相互サヤなのよだけどだけど それが複雑だけど最終的にねコラップ

するっていう点ではま同じえなわけでだ からまこの考え方がねも要するに科学 トランスフォンはややこしい何をやってん だって何をやってんだっ言った時にそれが このように機科学的なイメージで僕はまだ 読んでないんだけどこうするとこの粒子の ね拡散問題という風になん拡散方程式で 定義できるとかどうとかいう章があって ですねん僕はそこまで言ってないからまだ わかんないけどなるほど流体力学じゃない ですかそれはそうそうそうだからフロー マップって彼彼ら読んうんだから粒子ト君 が風呂流れていってどこに行きつくかって 話うんうんうんうんそうかすごいだ割と あれ松田先生がイメージされてたのも結局 それだったんですねそうそうまさにね同じ ことでもうちょっと精密にやってるか うわすごいなあそうですねうんいろんな ことが物理学のねこ今これまでのいろんな もののあの説明ができてきたってことなん ですかねうんほんでねこの著者は数学者ね うんだけどさき紹介YouTubeで紹介 した人は ね最初ねマンバの紹介をしてねえええで これは物理学ではないと言ってねなんでっ てあ空間ステートスペースモデルっちゅう のはねカルマンフィルターとかなんとかね うんこれは工学だって言ってるああねで私 はできるだけ物理的に説明したいけどね 物理と工学ちゅいうのがあってカルマン フィルターはあくまでも高額で動けば よろしいとま制御理論もそうですよね高額 なんですようん物理じゃないわけねうん うんうんででもそのねYouTuber できるだけ物理的に説明したいとうんでで 今のペーパー発見してま喜んだわけやうん ちなみにこれいつかっちゅうた去年の12 月のね2何日かのペーパーですけどねうん うんうんまだ1月立ってないんですようん うんでこれはぶりだってうんうんうんうん とだからねマンバを超えてっていうサイト になってんです ええあいやそのYouTubeのタイトル がよああそうですかうんうん そう か面白いっすね面白い面白いあいやだから だんだんね物事がね明間にね分かってき たっていやほんで僕前も言ったけど前ね これ僕だけ発見したみたいなこと言うた けどもうすでにね言われておったみたいな ことがま夜中に頭にしていくらでもおる からねうんうんだからま分かってて当然か なという気がしますがあだけど考え方は 正しかったという感じですねうんうんうん とね分書いてたら良かったんですよね

ちょっとち密いやただねでもねいやいや やっぱり彼らに負けるよね数学者じゃない からねあこまで言えないわいやいや それぞれ強みがありますからね数学者は 数学強いでしょうけども物理学者は物理 強いですよねうんうん宇宙物理学に持って くれば松田先生は強みを活かせるんじゃ ないですか宇宙物理で その粒子流体力学でを超えるような計算が できる部分もあるんじゃないでしょうかね うんありそうですよねええなんかその昔 松田先生研究室に行った時にま シミュレーションとかやってたじゃない ですかあん時もこう最初は例えばヘビム 方程式があってそれを数値的に解くって いう時に単純にこう単純に数値的に解くっ ていうことをま最初やるんですけどでも そこにだんだんこう物理的な意味みたいな ものをれいってその解き方を行動化して いきましたよねうんうん例えばあのリタ学 だったら音波音の速度とか考えてまそれが 伝わる範囲でなんか微分をしていくとか なんかそういう方法を入れていったんでま なんとなくそういうの過程と似てるなと ちょっと聞いてと思いました最初は とにかく解ければいいやっていう感じうん うんやってましあんまり物理的な意味は 考えずに工学的に解いてたでもそれが だんだん物理的な意味を入れていっていう ような感じがしたんですよねだからそれね 僕の飛行機の例えねうんねつまり飛行機や ね最初はね飛べばいいやとうんだから ライト兄弟はあくまでもエンジニアリング なわけうんだけどなんで飛ぶかとうんうん うんいうのがまクった重国スの定理なわけ ねうんでこれがま今の話ねで トランスフォーマー動けばいいやというの が今の状況でしょで確かにすごく性能が あるわけうんだけどなんでそんな性能が 出んのかって誰も知らないとうんでそれが ねま飛行機で食った重行式の定ですよねで それがだんだん分かってきて分かりつつ あるということですよねうんちょっと今の 話あれですねかしかして欲しいですね3 次元の球面の上でああそれはね実はね2 次元でやってんのよ彼らはああそうですか あのねでもいいと言ったでしょねだから2 次元のxyだけの場合はね比較化すると円 の上に乗っかるわけえええええでね本当は ね千次元とかなんとか高次元でしょそれを 2次元と思えというんですよだから全ての トークンが2次元つまりねそれはXY平面 の中にあるとうんところがですね企画化し てしまうと長さが1のですから円の上に あるわけですね原点を中心としたのそこへ

点をばらまくわけようんうんうんうんこれ がトークンなんですねこのトークンが引力 で引き合うとですねどっかに固まって 例えば2箇所とか3箇所に固まるとこれが クラスタリングなあでそれも非常な長時間 を置くとこの2つの3つの点が2つになり 2つの点が最後に1個になるわけよ ああそうかうんいやそれをね9でやって ほしいですねなんかいや9はいやあのね ええ9かうんうんでその表面でこう うようよ動いてんの見るのなんか癒しに なりそうじゃないですかそううんかむね かむねええあそうか円でできてるんだっ たら9でもね計算すればできそうな感じも しますねうんうん うんさあいうことではいええ面白い話でし たまた後の発というのをきたいですね

収録日:2024年1月18日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は

MAMBA AI (S6): Better than Transformers?
code_your_own_AI

BEYOND MAMBA AI (S6): Vector FIELDS
code_your_own_AI

A mathematical perspective on Transformers
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet
https://arxiv.org/abs/2312.10794

出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
   塚本昌彦 神戸大学教授
   小林秀章 セーラー服おじさん
   保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)

Write A Comment