【訂正版】松田語録：BitNet(1ビットLLM)がなぜうまくいくか？※公開時動画を間違えていましたので訂正しました(2024.3.14 3:00AM)。

【訂正版】松田語録：BitNet(1ビットLLM)がなぜうまくいくか？※公開時動画を間違えていましたので訂正しました(2024.3.14 3:00AM)。

例のビットネットっちいう話ですがま特にビットネットあの1.5ビットとかやっね 1.8ビットって面白い話ですよね前出しましたけどもかなり聴回数も増えててうんえでねあれで思ったことはねあのまそれで YouTubeなんかとかブログとかいっぱいあるんやけどでみんなねすごいすごいよとでどうすごいかというとまま要するにどんな話かって言うたらあのウェイトプラニングでウトwijっちゅうのがあってそれにXまベクトルをまJをかけるというようなことするわけだこの WJっていうの普通はこれあの少数点でフローティングなんですよねでこれ前も話になったけどあのその数値を表すのに普通はあの普通はですね普通制度ちゅうのがあってそれは32ビッなんですねちなみに 8ビットが1バイトと呼ぶんではいだから 4倍なんですよこれ普通制度単制度というんですよででさらに言えば倍精度っていうのがあってこれ128ビッなんだけどだ数値計算はそっちの方にバ制度の方に行くんだけどでディプランニングみたいなものもっと精度が落としてもよろしいというのでその普通度単精度の128って反精度の 16ビットっていうのが主に使われるとだけどいや8その半分の8ビッでいいんじゃないかとかさらにその半分の4でいいんじゃないかていうな話があってで今まで公開されていたの4ビットちゅうのがまねあったわけなんだけどまで極端に言って1 ビットでいいんじゃないかって話になったわけですよで1ビットち言ったら0と1 しか表現できないわけねあるいはま-1と 1とねうんこれま0中心して対象的にするとねところね1と-1やったやっぱりちょっと具合あるんですよねやっぱり0 っちゅうのがあるっていうことが非常に重要なんですよはいだってそれが影響ないということですからねだから-1と0と1 にするとだからこれ3これ3だからこれはあのねlog3ですかlog2の3でやとビット数でいと1.58とかいうのになるとまだから本当に1.58を使うわけじゃなくて数字としてね-1と0と1を使うとでこうすれば何がいいんかっちゅうとまメモリーが圧倒的に少なくて済むとから計算が当然非常に早くなるでなんで早くなるかっちゅうとwiJとXJをかけんだからでこれwって普通まあの少数点でXも少数点だから少数点と少数点の掛け算になるわけですねところがWが0と1と-1 だったら結局ね掛け算ってしないわけですよXiか-Xiか0かですからねだから結局足になってしまうわけですね加にだ

から計算が非常に早くなるというわけでまそのペーパによればですよであのうんメモリーが1かになるとね計算時間がまま最大例えば例えば10倍ぐらい早くなるとかいうようなことあるわけとこですねここでね疑問なのはねWiっていうのはあの普通あの少数で表すんですよね普通精度だったら単精度だったら大体6桁の数字なんですよ反精度だったらそれがま何桁か知らんけど3桁ぐらいになるわけですやんそれをぐっと減らしていったら精度がどんどん悪くなるわけじゃないですかだからこれねファレンスの時に使うんであって学習はねあの普通の普通にあるんですよでインフレの時に-1と0と1で良いと言んだけどそしたらインファレンスで計算が早くなるわけねところがですねそんなことしてなんで精度が良いのかとでペーパーによればですよねあるケースではねパレティーナ制度が良いとこんなこと想像できないわけですよねあの制度を悪くした方が制度が良くなるなんてこと考えられないわけじゃないですかはいでこれがなぜなのかっちうことは誰も言うてないわけよええでねそれをね思いねね考えてねま僕分かったと思ったわけよででい完全に分かったわけじゃなくてこういうんじゃないかというまわかったということですがそれはねあのトランスフォーマーってどんなかと言たこの式を書くとですねソフトMAXかこQQってあの大きな大文字のQこれはマトリックスなんですQで KKマトリックスの天地かこじVとだ休憩天地ソフトマックスの休憩天地のVなんですよまさらにったらベとか√Dとかあるけどままこんなどうでもいいないねでポイントは急経点値なのねでこれはで普通このNLPの世界でベクトルルちゅうのは横ベクトルで表現するんですよ普通はね縦ベクトルであるんだけどこの世界だけどうやっか最初のペーパーあのアテンションオルネドでねそのああのんトク荒らすベクトルよベクトにしたからまみんなよくでいくそた休憩天池っていうのはどう言うかって9ベクトルあ旧マトリクスちゅうのは9ベクトルちゅうのがこう横ベクトルが横に並んでるのが縦にこうたくさんあるわけだからたくさんのQベクトルがあってでKベクトルがが今度は軽天地ですから縦にこう並んでるわけよと休憩天地でですね内積を取るんですよこれ何をやってるかち言うたらまそんな今のこと言うてもなわけわからんかもしれんがこれね9KとVとするけどこれ全部元々のXと思ってもまあまあいいんですよ

あの原理的にはねそうしたらどういうことしてるかって言とですねRXまこれ9なんだけど取った時にどの計に1番近いかということを見るわけで近さを測るま距離を測るんですよその測り方があの cosこう2つのベクトルがあった時にこの長さね位置に揃えとくわけよこれはまレイアノーマリゼーションちゅうことで位置にしとくわけねそうするとですねこの内積っちうのは結局このcosシなんですよででcosシが1つまりシが0っていうのが同じってことですよねでここっち方向向いてるとcosシタが0になるわけよで逆向きになると-1になるだから近さっちゅうのが1から-1までにまなるわけただこれエクスポネンシャルの上に乗っかる乗っけるからですねあの風にはなんないんだよだから遠いか近いかまそれで測れるわけででですねダイナミックスこれあのま僕らの勉強会であったけどこのトランスフォーマーの数学的基礎ちゅうペーパーがあってですねでこれをよく読むとこれはねこれずっと前にホップフィードネットっちう話をしたんだけどこれってね非常に基本ホップフィードネットちゅのはトランスフォーマーののあの式休憩天地V と基本的に同じだという話があるんですよ今言たら数学的基礎ちいうのを見るとですね結局ねトランスフォーマっていうのはどういうことやってるかというとですねトークンがありますとね何かこうもものまなんか言うでしょ言うたらそれトクそれトクま単語って言って単単語があるわけねでこの単語にさらにね1ベクトルちゅうの足すんよこれど何番目かということで例えばディザペンというのがあったらあの Thisisapenピリオドというのに 1番目2番目っていうベクトルを足したようなベクトル外ですね例えば512次元とか124次元空間の中にこうこう点がこうあるわけよこういうイメージなねでアテンションはどうするかちゅうとアテンションっていうのはこの間のですね距離に応じて引っ張り合うんですよ引力なんですよトランスフォマってレアをこう重ねていきますよねレアを重ねるということは実はこれがですねこう引っ張り合ってこう動いて近づいていくんですよでこれ小林さん話されたと思うけどこれレヤはこう不連続なんだけどこれ連続と思ってもいいんですよねでまそういう風にすることすると微分方程式になるわけよでそうするとですねこのにはですね一点にこうコラプスするんですよであの普通のトランスフォームは96段

しかなっというとなると全1点にはコップしないで途中で止まるんだけどまあまあまあれ段数が増やせば増やすど1点に収束するで要するに要点はですねこのこういうパーティクルちゅうかトークンがあった時にこれがガーっと一点収縮してた点があるじゃないですかで元々の単語ちゅうのはこの空間の中にぶしとるわけよねでこれが行った先のにどどんな単語があるかってことがポイントなその単語が次の単語まトークンとして出てくるこれがトランスフォーマーのあの物理学的な解釈なんですよでそうするとですねこういった先にどんな単語があるかで次の単語を出すと言うた時にこれがね次にこのね収縮する計算がねこれ本当はフローティングポイントで正確に計算してるわけよこれを 1-0-1みたいなえ加減なことしたらどうなるかというとこの収縮の計算がえ加減になるわけですよでえ加減になって間違ったところへ収縮したらこれ答えが間違うわけよでそれがねいいってことはねねえ加減に計算しても間違いはないいということなんですよねなんでなんだっ言うたらこれが僕のスペキュレーション想像なんだけど単語空間ちゅうのを考えた時これってものすごく暴なま例えば124次元空間としたらものすごいね体積が大きな空間なんよでそこにね単語がねあらトークが何個あるかって考えてくださいとねで普通ねトランスフォーマーってね数個の単語なのねま良くて10万個よね単語数がまトク数っちゅうのはそんなにわないからね10万としましょうよね1224次元空間の中に10万個の点があったこれバラバラじゃないですかスカスカじゃないですかだってね考えてみてください体積ってねこのサイズがねまこう立法体として LとしますよねねでLの体積ってB上ですよねで124乗ねまあまあ000上としましょうよねで1つのあの単語の占める体積ってそれはるNじゃないですかねで簡単ためねこれLが1だったら計算がなかちょっとやしいことなんで2としましょうねで2の戦場っていくらですかって億 300桁ぐらいですよねロ300畳ですようんねうんそれをね10万って10の5畳でしょで割ったら10の300条÷5条やから295条じゃないですかだからまいぺが2のリポーターの場合ね1つの単語の占める体積が10の295条大きいでしょうつまり1つの単語のの縄張りっちゅうのがむちゃくちゃ大きいわけようんうんだから計算は多少間違っそん中に落ちればいいわけですやんうんうんそ

入れ物の宇宙がでかいとだから千次元あるってことは10の300上だから300 桁ぐらいの数のあのでかい土地があるところであの数人しか10万人ぐらいしか住んでないっつったらみんな応じ主でドカンていう土地をみんな持ってますよっていうそんなそういうことそういうことそういうことそういうことだから多少ね道に間違っててもねあの大丈夫だっってことようんということはなんかニューラネットのとか階層の深さとかそういうこう分布を探ってく複雑な計算が重要なのであって制度そのものは別にいい加減で良かったっていうそういうことのようですね分布そのものはすごい複雑なはずなんでそれを表現するニューラルネットってのま濃度数多いとか深さを深いとかあるんでしょうけどいやそれはねあのね学習の時にねきと計算してこの確実分布を計算するわけですようんうんうんで一また決まったらうのはそのね2人がですねこのものすごい広いところにねお前ん土地はどこだってまこれあのアメリカの昔の西武の開拓士みたいなもんでね1人の牧場主の土地ってものすごい広いわけやで隣ってむちゃくちゃ遠いわけねでそこへねまあのえ加減な地図で行くわけようんでも地図が間違っててもねうん広いからうんあの間違わなってこと答えもう誰の土地に入ったって答えだけ求まりいいんでうんそうそうそうことそうことそうことそうことうん次元は大き大きい方がいいんですよね今のところうんからなまそれがね1024次元であろうがね512 次元であろうがちなみにあのGPTするだって1万3000次元とかしねそうですねランクが4つあって 2248496でで8000になるかと思いきゃ1.5倍サービスで1万2288 次元なんてめちゃくちゃ広大なのようんま次元が大きいってことが重要であってそうそうそうそうそうその中のその計算っていうのはどこってのは別にいいと広いからそうそうそうそうあというような計算をしてるってことなんですねなるほどあインファスはねインファレンスあなるほどただ度がくなる場合もあるっていう話ありましたよねですそれたまたまですくなるちょっと変だなとそれたまたまだと思これが必ず良くなるならねこれは不思議だけどね良くなるケースもあったよというだけなけでそれはたまたまだと思いますようんはいわかりましたなんかイメージできたという話ですねこの今回の話いやほんで僕は

思うねんねこんなこと分かってる人誰もいないんじゃないかと思ったあそういう物理学的な解釈してる人いうのがねそもそもあんまりいないでしょうからちょっとできましたよねしだと思いますああさあとりあえず皆さんの意見も是非聞かせていただけたらという風に思いますけどもよろしいでしょうかはい

収録日：2024年3月9日
※公開時動画を間違えていましたので訂正しました。いただいたコメントを見て気づきました。みなさんすみません（塚本）。

シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は1ビットLLMがなぜうまくいくのかを物理的イメージによって解説します。

出演：松田卓也　シンギュラリティサロン主宰・神戸大学名誉教授
　　　塚本昌彦　神戸大学教授
　　　小林秀章　セーラー服おじさん
　　　保田充彦　XOOMS代表
企画・運営：シンギュラリティサロン(https://singularity.jp/)

【訂正版】松田語録：BitNet(1ビットLLM)がなぜうまくいくか？※公開時動画を間違えていましたので訂正しました(2024.3.14 3:00AM)。

Write A Comment