【訂正版】松田語録:BitNet(1ビットLLM)がなぜうまくいくか?※公開時動画を間違えていましたので訂正しました(2024.3.14 3:00AM)。
例のビットネットっちいう話ですがま特に ビットネットあの1.5ビットとかやっね 1.8ビットって面白い話ですよね前出し ましたけどもかなり聴回数も増えててうん えでねあれで思ったことはねあのまそれで YouTubeなんかとかブログとか いっぱいあるんやけどでみんなねすごい すごいよとでどうすごいかというとまま 要するにどんな話かって言うたらあの ウェイトプラニングでウトwijっちゅう のがあってそれにXまベクトルをまJを かけるというようなことするわけだこの WJっていうの普通はこれあの少数点で フローティングなんですよねでこれ前も話 になったけどあのその数値を表すのに普通 はあの普通はですね普通制度ちゅうのが あってそれは32ビッなんですねちなみに 8ビットが1バイトと呼ぶんではいだから 4倍なんですよこれ普通制度単制度という んですよででさらに言えば倍精度っていう のがあってこれ128ビッなんだけどだ 数値計算はそっちの方にバ制度の方に行く んだけどでディプランニングみたいなもの もっと精度が落としてもよろしいというの でその普通度単精度の128って反精度の 16ビットっていうのが主に使われるとだ けどいや8その半分の8ビッでいいんじゃ ないかとかさらにその半分の4でいいん じゃないかていうな話があってで今まで 公開されていたの4ビットちゅうのがまね あったわけなんだけどまで極端に言って1 ビットでいいんじゃないかって話になった わけですよで1ビットち言ったら0と1 しか表現できないわけねあるいはま-1と 1とねうんこれま0中心して対象的にする とねところね1と-1やったやっぱり ちょっと具合あるんですよねやっぱり0 っちゅうのがあるっていうことが非常に 重要なんですよはいだってそれが影響ない ということですからねだから-1と0と1 にするとだからこれ3これ3だからこれは あのねlog3ですかlog2の3でやと ビット数でいと1.58とかいうのになる とまだから本当に1.58を使うわけじゃ なくて数字としてね-1と0と1を使うと でこうすれば何がいいんかっちゅうとま メモリーが圧倒的に少なくて済むとから 計算が当然非常に早くなるでなんで早く なるかっちゅうとwiJとXJをかけんだ からでこれwって普通まあの少数点でXも 少数点だから少数点と少数点の掛け算に なるわけですねところがWが0と1と-1 だったら結局ね掛け算ってしないわけです よXiか-Xiか0かですからねだから 結局足になってしまうわけですね加にだ
から計算が非常に早くなるというわけでま そのペーパによればですよであのうん メモリーが1かになるとね計算時間がまま 最大例えば例えば10倍ぐらい早くなると かいうようなことあるわけとこですねここ でね疑問なのはねWiっていうのはあの 普通あの少数で表すんですよね普通精度 だったら単精度だったら大体6桁の数字な んですよ反精度だったらそれがま何桁か 知らんけど3桁ぐらいになるわけですやん それをぐっと減らしていったら精度が どんどん悪くなるわけじゃないですかだ からこれねファレンスの時に使うんであっ て学習はねあの普通の普通にあるんですよ でインフレの時に-1と0と1で良いと言 んだけどそしたらインファレンスで計算が 早くなるわけねところがですねそんなこと してなんで精度が良いのかとでペーパーに よればですよねあるケースではね パレティーナ制度が良いとこんなこと想像 できないわけですよねあの制度を悪くした 方が制度が良くなるなんてこと考えられ ないわけじゃないですかはいでこれがなぜ なのかっちうことは誰も言うてないわけよ ええでねそれをね思いねね考えてねま僕 分かったと思ったわけよででい完全に 分かったわけじゃなくてこういうんじゃ ないかというまわかったということですが それはねあのトランスフォーマーって どんなかと言たこの式を書くとですね ソフトMAXかこQQってあの大きな大 文字のQこれはマトリックスなんですQで KKマトリックスの天地かこじVとだ休憩 天地ソフトマックスの休憩天地のVなん ですよまさらにったらベとか√Dとかある けどままこんなどうでもいいないねで ポイントは急経点値なのねでこれはで普通 このNLPの世界でベクトルルちゅうのは 横ベクトルで表現するんですよ普通はね縦 ベクトルであるんだけどこの世界だけどう やっか最初のペーパーあのアテンション オルネドでねそのああのんトク荒らす ベクトルよベクトにしたからまみんなよく でいくそた休憩天池っていうのはどう言う かって9ベクトルあ旧マトリクスちゅうの は9ベクトルちゅうのがこう横ベクトルが 横に並んでるのが縦にこうたくさんある わけだからたくさんのQベクトルがあって でKベクトルがが今度は軽天地ですから縦 にこう並んでるわけよと休憩天地でですね 内積を取るんです よこれ何をやってるかち言うたらまそんな 今のこと言うてもなわけわからんかもしれ んがこれね9KとVとするけどこれ全部 元々のXと思ってもまあまあいいんですよ
あの原理的にはねそうしたらどういうこと してるかって言とですねRXまこれ9なん だけど取った時にどの計に1番近いかと いうことを見るわけで近さを測るま距離を 測るんですよその測り方があの cosこう2つのベクトルがあった時に この長さね位置に揃えとくわけよこれはま レイアノーマリゼーションちゅうことで 位置にしとくわけねそうするとですねこの 内積っちうのは結局このcosシなんです よででcosシが1つまりシが0っていう のが同じってことですよねでここっち方向 向いてるとcosシタが0になるわけよで 逆向きになると-1になるだから近さっ ちゅうのが1から-1までにまなるわけ ただこれエクスポネンシャルの上に 乗っかる乗っけるからですねあの風には なんないんだよだから遠いか近いかまそれ で測れるわけででですねダイナミックス これあのま僕らの勉強会であったけどこの トランスフォーマーの数学的基礎ちゅう ペーパーがあってですねでこれをよく読む とこれはねこれずっと前にホップフィード ネットっちう話をしたんだけどこれってね 非常に基本ホップフィードネットちゅのは トランスフォーマーののあの式休憩天地V と基本的に同じだという話があるんですよ 今言たら数学的基礎ちいうのを見るとです ね結局ねトランスフォーマっていうのは どういうことやってるかというとですね トークンがありますとね何かこうもものま なんか言うでしょ言うたらそれトクそれ トクま単語って言って単単語があるわけね でこの単語にさらにね1ベクトルちゅうの 足すんよこれど何番目かということで 例えばディザペンというのがあったらあの Thisisapenピリオドというのに 1番目2番目っていうベクトルを足した ようなベクトル外ですね例えば512次元 とか124次元空間の中にこうこう点が こうあるわけよこういうイメージなねで アテンションはどうするかちゅうとアテン ションっていうのはこの間のですね距離に 応じて引っ張り合うんですよ引力なんです よトランスフォマってレアをこう重ねて いきますよねレアを重ねるということは実 はこれがですねこう引っ張り合ってこう 動いて近づいていくんですよでこれ小林 さん話されたと思うけどこれレヤはこう不 連続なんだけどこれ連続と思ってもいいん ですよねでまそういう風にすることすると 微分方程式になるわけよでそうするとです ねこの にはですね一点にこうコラプスするんです よであの普通のトランスフォームは96段
しかなっというとなると全1点にはコップ しないで途中で止まるんだけどまあまあま あれ段数が増やせば増やすど1点に収束 するで要するに要点はですねこのこういう パーティクルちゅうかトークンがあった時 にこれがガーっと一点収縮してた点がある じゃないですかで元々の単語ちゅうのは この空間の中にぶしとるわけよねでこれが 行った先のにどどんな単語があるかって ことがポイントなその単語が次の単語ま トークンとして出てくるこれが トランスフォーマーのあの物理学的な解釈 なんですよでそうするとですねこういった 先にどんな単語があるかで次の単語を出す と言うた時にこれがね次にこのね収縮する 計算がねこれ本当はフローティング ポイントで正確に計算してるわけよこれを 1-0-1みたいなえ加減なことしたら どうなるかというとこの収縮の計算がえ 加減になるわけですよでえ加減になって 間違ったところへ収縮したらこれ答えが 間違うわけよでそれがねいいってことはね ねえ加減に計算しても間違いはないいと いうことなんですよねなんでなんだっ言う たらこれが僕のスペキュレーション想像な んだけど単語空間ちゅうのを考えた時こ れってものすごく暴なま例えば124次元 空間としたらものすごいね体積が大きな 空間なんよでそこにね単語がねあらトーク が何個あるかって考えてくださいとねで 普通ねトランスフォーマーってね数個の 単語なのねま良くて10万個よね単語数が まトク数っちゅうのはそんなにわないから ね10万としましょうよね1224次元 空間の中に10万個の点があったこれ バラバラじゃないですかスカスカじゃない ですかだってね考えてみてください体積 ってねこのサイズがねまこう立法体として LとしますよねねでLの体積ってB上です よねで124乗ねまあまあ000上とし ましょうよねで1つのあの単語の占める 体積ってそれはるNじゃないですかねで 簡単ためねこれLが1だったら計算がなか ちょっとやしいことなんで2としましょう ねで2の戦場っていくらですかって億 300桁ぐらいですよねロ300畳ですよ うんねうんそれをね10万って10の5畳 でしょで割ったら10の300条÷5条や から295条じゃないですかだからまいぺ が2のリポーターの場合ね1つの単語の 占める体積が10の295条大きい でしょうつまり1つの単語のの縄張 りっちゅうのがむちゃくちゃ大きいわけよ うんうんだから計算は多少間違っそん中に 落ちればいいわけですやんうんうんそ
入れ物の宇宙がでかいとだから千次元あ るってことは10の300上だから300 桁ぐらいの数のあのでかい土地がある ところであの数人しか10万人ぐらいしか 住んでないっつったらみんな応じ主で ドカンていう土地をみんな持ってますよっ ていうそんなそういうことそういうこと そういうことそういうことだから多少ね道 に間違っててもねあの大丈夫だっってこと ようんということはなんかニューラネット のとか階層の深さとかそういうこう分布を 探ってく複雑な計算が重要なのであって 制度そのものは別にいい加減で良かっ たっていうそういうことのようですね分布 そのものはすごい複雑なはずなんでそれを 表現するニューラルネットってのま濃度数 多いとか深さを深いとかあるんでしょう けどいやそれはねあのね学習の時にねきと 計算してこの確実分布を計算するわけです ようんうんうんで一 また決まったらうのはそのね2人がですね このものすごい広いところにねお前ん土地 はどこだってまこれあのアメリカの昔の 西武の開拓士みたいなもんでね1人の牧場 主の土地ってものすごい広いわけやで隣 ってむちゃくちゃ遠いわけ ねでそこへねまあのえ加減な地図で行く わけようんでも地図が間違っててもねうん 広いからうんあの間違わなってこと答え もう誰の土地に入ったって答えだけ求まり いいんでうんそうそうそうことそうこと そうことそうことうん次元は大き大きい方 がいいんですよね今のところうんからなま それがね1024次元であろうがね512 次元であろうがちなみにあのGPTする だって1万3000次元とかしねそうです ねランクが4つあって 2248496でで8000になるかと 思いきゃ1.5倍サービスで1万2288 次元なん てめちゃくちゃ広大なのようんま次元が 大きいってことが重要であってそうそう そうそうそうその中のその計算っていうの はどこってのは別にいいと広いからそう そうそうそうあというような計算をして るってことなんですねなるほどあ インファスはねインファレンスあなるほど ただ度がくなる場合もあるっていう話あり ましたよねですそれたまたまですくなる ちょっと変だなとそれたまたまだと思これ が必ず良くなるならねこれは不思議だけど ね良くなるケースもあったよというだけな けでそれはたまたまだと思いますようん はいわかりましたなんかイメージできたと いう話ですねこの今回の話いやほんで僕は
思うねんねこんなこと分かってる人誰もい ないんじゃないかと思ったあそういう物理 学的な解釈してる人いうのがねそもそも あんまりいないでしょう からちょっとできましたよねしだと思い ますああさあとりあえず皆さんの意見も 是非聞かせていただけたらという風に思い ますけどもよろしいでしょう かはい
収録日:2024年3月9日
※公開時動画を間違えていましたので訂正しました。いただいたコメントを見て気づきました。みなさんすみません(塚本)。
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は1ビットLLMがなぜうまくいくのかを物理的イメージによって解説します。
出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
塚本昌彦 神戸大学教授
小林秀章 セーラー服おじさん
保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)
