![0xtomo.eth Profile](https://pbs.twimg.com/profile_images/1625732007811776512/Zffr2_Zq_x96.png)
0xtomo.eth
@HAIL
Followers
1K
Following
13K
Statuses
7K
CTO at @startbahn. Formerly at @GoldmanSachs and @EA. Posts in 🇺🇸&🇯🇵
Dubai, Tokyo, Ethereum
Joined April 2008
ChatGPTの年間プランが廃止されるから月間プランに切り替えてなと最近通知が来たのだけど、どちらかというと1年囲えたほうが良いのかもしれないな。ユーザー側としてはもうしばらく年コミットはどのモデルにもしない方が良い気持ちになっている
【DeepSeekについて】 DeepSeek-R1について遅ればせながらリサーチした。 重要な論点はこの辺な気がする 1) GPU需要は変わるのか? 2) ファウンデーションモデルレイヤーはコモディティ化するか? 3) DeepSeek-R1を他プレイヤーがどのように活用するか? 4) DeepSeekはOpenAIに勝てんのか? 以下、まだまだゆるめの仮説なんですがテキトーに書いてみる (ツッコミ大歓迎です) ====================== 1)NVIDIA GPU需要は変わるのか? NVIDIAのGPUの強かったところの価値が落ちるので、変わりうるのではないか ・LLMの性能向上にあたり、大量のデータを元にした学習より強化学習がより重要に ・強化学習では学習の計算よりも推論の計算の需要が増える ・DeepSeekでは推論をした上で、合ってるか間違っているかの単純な報酬を与えている(ルールベース報酬) ・ゆえに賢くなるにはたくさん推論しまくる必要がある ・今のNVIDIAの優れているところは学習の速度が早いことであり(CUDA等のおかげ)、推論に優れたアーキテクチャではない ・推論のコスパが良いという意味ではAppleのM4とかは良さそう(Unified Memoryのおかげ)。速度ではGroqのLPUとか推論特化のアーキテクチャの方が良さそう ・あとオープンモデルになったことで各社がセルフホスティングするようになる。この場合は高価なH100じゃなくても良いのであればそれで良さそう とはいえまだまだ全然NVIDIA GPUも必要そうではある ・学習の計算をしないわけでは全くない(SFT) ・DeepSeekもGPUが無いフリをしつつ実は第三国経由でNVIDIAのH100を大量に持っている可能性があるらしいという未確認情報もある ・ただNVIDIAがそんなザルな管理するわけなくねという話も聞く ・低レイヤーゴリゴリ書ける人材は中国に多そうなのでよわGPUしかなくてもなんとかなるんだろうね的な話もきく ・Groqとかの新興が会社としていい感じに成長するのかもリスクある(そもそもビジネスをちゃんとスケールする難易度は相当高そう) ・推論はいろんな用途別の推論半導体が出てくる感じになり、個別のアーキテクチャが覇権を取る感じでもないかもしれない ・もちろんNVIDIAがいい感じの推論チップを出してくることもありうる ・強化学習だけれどもNVIDIAのアーキテクチャがハマるやり方が出てくる可能性もある 2) ファウンデーションモデルレイヤーはコモディティ化するか? ・なんだかんだ言いつつ、高いクローズドモデルが発表されてからそれに伍するオープンモデルが発表されるまでの時差は数ヶ月から1年ぐらいの間にとどまっている ・例えばOpenAIのo1とDeepSeekのR1間だと約5ヶ月程度 ・この時差は継続し続けるのではないか? つまり、クローズドモデルの秘伝ノウハウを封じ込めるのは人材流動性が高い現代社会では無理なのではないか? ・よって時間たてばコモディティ化はしそう ・となると今のクローズドモデルを売るサービスをしているプレイヤーは基本的に時間を売っていることになり、この時間価値がどれぐらいなのかが重要な要素になる ・普通に考えると人は数ヶ月から1年は待てるわけなので、あんまり時間価値なんて無いように見える ・一方で、一部の市場制圧型のビジネス(最初に勝ったやつが勝つ)をしている企業は少しでも性能の高いモデルを早く手に入れるインセンティブがある ・例えば創薬とか研究開発偏重な産業はそうかもしれない ・また、国家安全保障の文脈が入ってくる「国」というプレイヤーにとっては、大量の金を突っ込んでもいいから少しでも早く入手、開発したいインセンティブがある ・Stargate Projectでトランプが75兆円突っ込んでいるのはそういう文脈もあるのかもしれない 3) DeepSeek-R1を他プレイヤーがどのように活用するか? ・結構広範囲に活用できそうな予感がする ・賢いベースモデル+ルールベース報酬による強化学習+蒸留による小型化が効くことがわかった、というのは参入障壁がそこまで高くないのでいろんな研究機関、企業にとって朗報だと思う ・かつ、強化学習をどうやって行うかはまだまだほんとに全然黎明期な感触を受けた。工夫の余地はたくさんありそう。学習させる報酬の種類もデータ量も計算量もまだまだ増やしていけそう ・今のモデルは大きすぎるので、アプリケーションごとに区切ってバーティカルな小モデルをいろいろ作るべきみたいな話があり、R1をベースにカスタムモデルを作るのが流行る可能性はある ・バーティカル特化モデルの例でいうと、日本語の契約交渉のための能力をDeepSeek R1を使ってバキバキにあげますみたいなこともできるんちゃうかと思う。 ・たとえば弁護士ががんばってCoTデータセットを手で作る+契約書評価報酬でRFするみたいな感じで弁護士的推論LLM作る、みたいな感じでできそう 4) DeepSeekはOpenAIに勝てんのか? ・DeepSeekは圧倒的にAPI費用が安い。OpenAIよりはるかに安い ・でもおそらくまったく元は取れていない価格設定になっているはずで、持続性はない ・MoEアーキテクチャだから最小構成でH800(弱GPU)で数百台ぐらいはいるのではないか?という意見あり ・DeepSeekがここまで低価格でやっている狙いはよくわからないが、あるとすると広告宣伝だと思って払っているのではないか? ・現状圧倒的な価格優位性を持っているわけではなさそうで、OpenAIに対して持続的に優位に立てる要素は現状見当たらない ・が、DeepSeekがいきなりすごいのを出してくる可能性は常にあるので今後に期待 ========= あくまでゆる仮説なので、ツッコミ歓迎です・・・!
0
0
0
. @Azuki NFT is on Ethereum but this $ANIME was minted on Arbitrum. It used LayerZero for this sort of cross-chain airdrop and it took 2 mins or so, but I didn't wait, I just watched this dope video during the process.
The @Azuki claim video alone can onboard 10s of thousands. Dope shit only $ANIME will be a top coin under the leadership of such a team
0
0
1
@toyotaka_sakai モチベーションが研究へのファンディングの改善であり、多くの情報はオフチェーン保存だと思うので直接の答えではないですがresearch x web3の広い文脈で
1
0
1