松田語録:BitNet〜1.58ビットのLLMで従来LLMより性能が勝る?
あ僕いつもYouTubeを色々見てんだ けどおすめっちゅうのが来るわけよね中で まあ1あの今後のLLM1ビットでま正確 に1.58ビットでよいとかいうなんか話 があって一体何のことなんだってうんてま 僕動画YouTube動画日本見てですね ま解説見てから論文をま論文は読んではい ないのよあもうもっぺ言ってくださいも 今後のLMはですって1ビットで良いと いううんどういうことかな従来のLMMは 何ビットだったいやそれ16ビットいや 本来ねあのいやまず本来あの 普通あの少数と整数は話が別で普通はあの あの少数の場合はですね平均はま32ビッ じゃないですかここれが話でしょうねそれ は数字がね32ビットいるわけよでで精度 ちゅうのが64ビトそあれですか ニューロンの重みとかそんなんですか ニューロンとは関係なくてコンピューター の精度の話じゃないですかあ1つのあの 少数を表すのに何ビッで表すかというんで 普通はですねえ途中の計算ということです ねうん途中の計算っていうことですね まあまあ要すうん計算のための数数字数字 のはいはいはいをあの表現するのに何 ビットいるかとでこれは少数と整数で話別 なんだけど普通はま少数を使うわけでその 場合は普通制度が32ビッなんですええ ええそうですねで倍精度っていうのは64 ビットそうええはいはいはいで僕らはです ね僕らはち僕とかあの安田さんはですね あの流体の数値シミュレーションやるわけ でその時は倍精度64ビットでやるわけ ですあはいはいはいところがあのllm みたいな計算はねそこまでの精度いらの じゃないかという話になっておってええ ええええんで32ビッは16ビットこれ反 制度と言うんだけどそれでいいんじゃない かとかさらには8ビットさらには4ビット うんでいいって話になってきてるわけよ はいはいでで今回のがねそれが1ビットと かいう話でああんで1ビットち言うたらね 1と-1しか表現できないわけよええええ で今回はねさらにねさらにねてうんだけど 何のことかね1と0と-1なのね1と0と -1うんこの3つの数字だけで全て表すと うん33値っていうことですねで2点の ログを取れば1.58にな るってことですねうんそううんだから 1.8でログ取ったらうんうんそっから来 てだから1やったら1-1やけど1ビット ではちょっと不足するんで10-1にする と非常にいいよというペーパーがですね ごく最近その1ビットでいいよっていうの はだいぶ前に出てたんだけど1.8ビット
ちうのがごく最近出てきたわけですねうん おおでそんなんねそんなんでいいんかと 思うでしょで結局ねあのこうするわけよ あのウェイトねwちゅうウェイトねでこれ があの普通整数で0.1なんとかかんとか で表すわけですやんはいはいはいそプラス マイナスでねでそれをですね1と0と-1 だけにするとうんおおやっぱりウェイトな んですねうんウェイトが例えば0.2 みたいなやったらもうこれはねこれはもう 1にしてしまうとで-0.5だったら-1 にしまっとで0なら0にするとかいうほな ことでそんなことしてええのかってでね そこでですねまそのペーパによるとですよ でそうやるとねあのねウトはね普通ね 例えばなんとかあの結局WIIJかxi みたいな格になってるからええでこのWi が普通あの少数なわけですや0.23とか ねでXも少数なわけですやんところがね ここのWiが1か0か-1でいいとなれば ねね WiIIJはそうなればXiがですねXi か-Xiか0かでいわけですよええええ ええええそうなるとね掛け算がいらないと いうわけ掛け算だけになるとおうんおお 引きもいますねこの主張としてはだから もうね今のGPUみたいなものはいらない とままそのペーパによればですよあでだ から足し算掛け算がいらなくて足し算だけ で良いということになると新しいあの チップでやったら方がいいんじゃないか みたいなねこれれは提案なんだけどまずね そういう風にやるとね何がいだって制度が 出るのかって思うじゃないですかそんな ことやってええのかとでそれをですね実際 あのやってみたとで具体的にはあのラマを 使ってんだけどええというのはそれが公開 されてるからねえええええでそれを使うと ですねなんとねままずねメモリーが少なく て済むっていうのこれは当然のことねはい はいで計算が早くな当然のことええ劇的に はあだけどいや劇的って数倍ですよ数倍 ああうんなんでいい場合はね4倍とか そんなんなんですよああでいやそれよりも ね画期的にはこんなこと信じられないんだ けど制度がねえこれパプレシティ言ってん だけどパプレシティは低いほどいいのよね ではあはあはあはあそのね1.5ビットを 使うとねパープレシが下がるとつまり精度 が良いとなるそんなこと考えられないよね うおいやいやそ必ずじゃないのよそういう ケースがあるということふえパラメーター 数的にはどうなんですかパラメーターはの 数は同じだ同じだでも増やさなくていいん ですねパラその次元をうんパラメーター数
は同じなんだけどけどあのメモリーが 少なくて済むのと計算速度が早いという ますねで精度が心配なんだけど精度は心配 じゃないどころかむしろ良い場合もあると いうこんなこと信じがいけどというわけで やね僕はねそれであの新しいチップの動き が出てくんじゃないかと思ったんやけどま これ辺関しては斉藤さんが一加減あるわけ でああはあははははいというほどのない ですえっと今の論文はどっから出てきたん ですかマイクロソフマイクロソフトああ そうですかマイクロソフトどこですか アジア中国っぽいですね中国ですねああ そうなんですねはいあのいやすごいのが出 てきたなという風に思ってるんですがあの 2016年に本をあの清水涼さんという 割と今のあのこのビットネトなんかの解説 も記事でなされてるで彼も同じ長岡の出身 で後輩にあたるんですがそうですあの マクフにめ回あのビットネットの件も清水 りさんがのノートに記事をあげててなんか 野良実装したやをもってきて動かしてみた ぞみたいなこと書いてらっしゃいますよね まだ現在も色やってらっしゃいますですね はいで彼の書かれたあの2016年のあの 本なんですがそこの最後で対談をさせて いただいておりましてうんはいこの街頭 歌書がちょっとこんなことを当時語らせて いただいてたんですねうんであのこの対談 で語ってることていうのはあのスーパー コンピューターの方ではその破長え倍制度 の644ビットのみならず宇宙物理とか ですね流体とか本当にやってきますと 128ビット256ビットとかも必要に なるのでタバ演算にも対応できるような ハイパフォーマンスコンピューティング用 のまプロセッサーをかや作りながらま ディープイサイという実は法人も立ち上げ ていたんですがそこではむしろ制度を逆に 落としていくということでま当時から割と 1ビットバイナリのなあの演算でいいん じゃないかっていう話はありましてログも あのいくつか出ていたえわけなんです けれども えま反精度16ビットから1/4制度8 ビットさらに4ビット2ビットも本当に 最後は1ビットでもいけるのかなっていう のは当時から思ってましてただあの肝心な ことにはやっぱりあのこれがダイナミック に切り替えられるといいなとえ人間の脳の 構造をま脳自体も大神秘質のみならずま 変形変形があったり中納があったりま いろんな性能があったりいろんな役割を 分担しているものを同じアーキテクチャー であの一元的にこれは捉えるのが難しいと
すればあの要所要所でビット制度切り替え ながら演算ができるようなで特にあの性能 が1番欲しいところというのはその バイナリーなのか今の62の3のな1.8 みたいなものかちょっと分かりません けれどもあのそういう演算期ま今回の ケースで言うと加算議だけでもいけて しまうわけですけれどももうそれに特化し たハードウェアをあのユニットとしては たくさん並べて積んでおいてあとはそれを えプログラマにえ組み替えて使えるような 構造というのをあの2016年当時から ちょっと目指してあのやっていたことを ちょっと思い出してですねあのいよいよ あのそういう実例もあるいアルゴリズムが ブラッシュアップしたものが出てきたなと いうあのそんな風に感じておりました えっとさっきの今の本っていつ出たやつ本 なんですかあの2016年の確か10月 だったと思うんですけどもああじゃあ10 年近く前から7年はいぐらい前えええはい うんえじゃあそそのビット数減らしてって も精度は出るということまだ確定的なこと はなかなか当時は分からなかったんですが 可能性十分あると思っておりましたし 突き詰めるとま人間の脳のま神経のあの 発火まシナプスの発火の状態っていうのは えまシングルコンパートメント持っ なるほどバイにそうじあれですねまだ トランスフォーマーも出てないそうです ですけどあのディープラーニングは割と 流行ってた頃なんですよねそうですね ディープラーニング認識ですごい制度が出 てきた頃にまあ今みたいなお話をされて たっていうことですねそうか今おっしゃっ たねニューロンっていうのはね白化するか しないかですよねええええだ からいやそれやったら0と1ですよね マイナス1もあり ますまそこ本当に必要なるかどうかって いうのがあの今後になってくるんだと思う んが逆に今回のよな新しい発見があると実 は我々がニューロンのシナプスの発火の 状態ってのは01だと思ってたのがですね 実はマイナ1みたいな要素も隠されていて 逆にあの神経科学的にこういったあああ発 につがるかもしれないですかねうんうん いやそれはね神経伝達物資でギャバって あるじゃないですかギあれは抑える方よね うん薬系にもはいこれも清水さんそんな 記事もあの書いてましてですねかていう ことでは今回のかそれそうかそうかそれ だったらマイナス1もあるってことですよ ね抑えるってことははいなんか非常にその 素人的考えですけどもしウェイトの精度を
落としていったらその分能動を増やさない と同じ制度にならないんじゃないかと思っ てしまうんですけどその辺は違うんですか そのだから今のペーパーではだからそこは 調べてうんパプレ調べてでそう簡単にした 方がパプレが下がったケースがつまり精度 が上がったケースがあるって濃度も変え ずきいやまだそうは増した方がいいかも しれないんですよねはいだからその辺は ええいや場合によっては能動増やした方が いいかもしれないですよねまあまあ最そこ はまたこれからいや今のペーパーはね普通 の計算をうんあのいろんなんでやってみた とうんならその今インタ1.8ビット つまり10-1にやってもねうんやったら 計算速度が早くなるとかメモリが少なくて すこれは当たり前のことなねそれはすごい 無で問題はねそんなことして精度がいいの かってことが1番問題じゃないですかうん でそれが場合によってはむしろその方が 良いこれは信じがいんだけどうんええうん まただ僕らもその言語モデルとか使ってて ま元々32ビットのウェイトがやるのをね その16ビットで使うっていうこともよく やるんですけどそれは単にGPUのメモリ を減らしたいからそういう風にしたいでも それが8ビ4うんとかもあるんですよね 確かにで別にそれで動かしてもまあなんと なくちゃんとした答えが出てたんでうん なんかそういう意味では信じられるなって いう気がしますね感覚的にもうん減らした から悪くなるっていいやいやただそうすれ ば普通の常識でいけばねねあの反精度から えっと1/4精度1/8精度にすればそん だけ精度が落ちると思うわけじゃないです か常識的にはでそれがそう落ちないってと がね面白いところうんすごいですねで究極 はねやっぱりね1.58ビットですよねま 1ビットまで行くのはちょっと行きすぎだ ということ1-1は行きすぎで10-1が いい1.8でちょうどうんあのいい性能が 出たっていうことでしょうねうんうん今 あれですね松田先生最初の方におっしゃっ てましたけども掛け算いらなくなるという ことは今GPU不足でですねえ人口地の 開発偉いGPUの取り合いになってます けども実はそんなGPUいらんていう話な んですあそれはどうなんです斎藤さんあ あのインファス側はそういう方向に行くん じゃないかなという風に思いますト インファスの方ね うん別なお話かなとうんだから インフランディング今のインフラントね うんその学習え学習と水論っていう意味で 両あるわけ学習ね世間でねちゅうか
オープンエとかなんとかものすごい金が かかるっちゅうのは学習で金がかかるわけ えええうんででだけど今チャトGPT使っ た時にパッと出てくるのあれはね水論やっ てるわけですよええもう学習は終わってる わけよええだからその水論が早くな るってことですよねほんでで軽くなるから あの手前の自分とこの例えばは iPhoneでできるとかいうことになる うんことですあるあのエッジデバイスで こういうものが使えるようになるのが1つ メリットともう1つはあのオーA社もです ねトレーニング用の計算機資源 コンピューティングリソースと開発した今 のGPT4とかあの3.5をサービスとし て展開する時にもGPUを使わなくていけ ないところでま取り合いにこれもなって しまっているところがインファラス用が どんどんこういうものに置き換わっていく とトレーニング用により検査資源をうんえ 集中させることができるメリットとまある だろうなと思いましたうんうんなるほど なるほど学習の話ではなかったわけですね 今の話は今の時点ではということですね なるただどうかな僕まだペーパー読んで ないからあれやけど学習の方にも使える みたいなことちょっと書いてあったような 気がするんだけどどうでしょうああそう あの原的には人間の脳がそのその神経の えトレーニングをやってる可能性があるの でまそこはあの否定はできないというか そういう方向に向かっていける可能性も うんうんうんうんいやだから可能性ある わけでま分かりますただ僕ね思にねあの今 までまこれだけようねいろんなこと考える なと思いますねで進歩がものすごく早い じゃないですかいや短いですねどんどん どんどんね短期間で新しい話が出てくるん でついていくの大変ですねねえねいや今の はね1.5ビットとこれもね画期的な話や けど前やったねあのリングうんアテンショ ンって話もねあの普通ね4Kとか8Kとか なんかねこれがえ100万トークンとえ いうのが簡単に簡単にできるとうんそれも ちょっとしたアイデアだと僕は思うんだ けどうんいやだから ね今ものすごくこれあのもうほわしたとか いう人もいるんやけどなかなかほしてない よねえAIのアイデアええいやだけど今の 話はまだまだ発展する感じがしますね専の チップ出てきたらちょっとすごいことに なっていくんじゃないですか1.8ビット の専用のその辺なんか専用のチップって 作れるんですか最さあの作るべきかどうか という作れる作れないもちろんあの非常に
簡単に作れてしまいます はいてるそれだけでことが足りると思わ ないのでやっぱりあの他の演技もできる ように作っといてあの可能であればそれを ダイナミックに切り替えて使えるようにえ できるような性のハやチップを作ればいい かなという風に思あなるほどだから普通の あの不動少数点の普通制度もできるとま 最低限BF16です ねあのえられていてあとはそこから制度を あの落としていってえ性能を上げていきで 必要に応じて制度また戻すとかですねこと ができるような構成が必要ではないかなと 思なるほどなるほどまあね他の計算もでき なきゃ具合あるもねうんだけどま必要な 計算をちゃんと洗い出してねそれに特化し てチューンすれば非常に高性能なチップが 作れるとあ専用チップならいい専用チップ え例えば普通のね普通のね計算すんのに 電卓的計算するのにやっぱりそれは普通 制度がいるでしょうようんうんうんそれを 1.58ビットではできないからね多分ね いやで多分っって言うけどこんなのわから んよねいやあの人間の頭もそれで結局計算 機でやってるようなこと計算できうん確か に確かに確かにでるかもしれませんはい うんうんこれはじゃそんなとこでしょうか うん はい
収録日:2024年3月3日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は話題の1ビットLLMについて。
出演:齊藤元章氏 実業家、元PEZYグループ代表
松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
塚本昌彦 神戸大学教授
小林秀章 セーラー服おじさん
保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)
