![あんどーぼんばー Profile](https://pbs.twimg.com/profile_images/1604797450124144640/6G7KytX8_x96.jpg)
あんどーぼんばー
@AndooBomber
Followers
223
Following
2K
Statuses
2K
Web Engineer @gaudiy_jp ← Yahoo! Go/Node/TS/SRE/k8s/GCP/Kotlin/Ktor. Opinions entirely my own.。
Tokyo
Joined December 2017
RT @findy_tools: OpenTelemetry を導入しつつ Datadog を利用する🔍 🔗 アーキテクチャの意図・工夫🌟 OpenTelemetry を活用しており、Kubernetes 上の全てのマイクロサー…
0
5
0
なるほどなー
【DeepSeekについて】 DeepSeek-R1について遅ればせながらリサーチした。 重要な論点はこの辺な気がする 1) GPU需要は変わるのか? 2) ファウンデーションモデルレイヤーはコモディティ化するか? 3) DeepSeek-R1を他プレイヤーがどのように活用するか? 4) DeepSeekはOpenAIに勝てんのか? 以下、まだまだゆるめの仮説なんですがテキトーに書いてみる (ツッコミ大歓迎です) ====================== 1)NVIDIA GPU需要は変わるのか? NVIDIAのGPUの強かったと��ろの価値が落ちるので、変わりうるのではないか ・LLMの性能向上にあたり、大量のデータを元にした学習より強化学習がより重要に ・強化学習では学習の計算よりも推論の計算の需要が増える ・DeepSeekでは推論をした上で、合ってるか間違っているかの単純な報酬を与えている(ルールベース報酬) ・ゆえに賢くなるにはたくさん推論しまくる必要がある ・今のNVIDIAの優れているところは学習の速度が早いことであり(CUDA等のおかげ)、推論に優れたアーキテクチャではない ・推論のコスパが良いという意味ではAppleのM4とかは良さそう(Unified Memoryのおかげ)。速度ではGroqのLPUとか推論特化のアーキテクチャの方が良さそう ・あとオープンモデルになったことで各社がセルフホスティングするようになる。この場合は高価なH100じゃなくても良いので���ればそれで良さそう とはいえまだまだ全然NVIDIA GPUも必要��うではある ・学習の計算をしないわけでは全くない(SFT) ・DeepSeekもGPUが無いフリをしつつ実は第三国経由でNVIDIAのH100を大量に持っている可能性があるらしいという未確認情報もある ・ただNVIDIAがそんなザルな管理するわけなくねという話も聞く ・低レイヤーゴリゴリ書ける人材は中国に多そうなのでよわGPUしかなくてもなんとかなるんだろうね的な話もきく ・Groqとかの新興が会社としていい感じに成長するのかもリスクある(そもそもビジネスをちゃんとスケールする難易度は相当高そう) ・推論はいろんな用途別の推論半導体が出てくる感じになり、個別のアーキテクチャが覇権を取る感じでもないかもしれない ・もちろんNVIDIAがいい感じの推論チップを出してくることもありうる ・強化学習だけれどもNVIDIAのアーキテクチャがハマるやり方���出てくる可能性もある 2) ファウンデーションモデルレイヤーはコモディティ化するか? ・なんだかんだ言いつつ、高いクローズドモデルが発表されてからそれに伍する��ープンモデルが発表されるまでの時差は数ヶ月から1年ぐらいの間にとどまっている ・例えばOpenAIのo1とDeepSeekのR1間だと約5ヶ月程度 ・この時差は継続し続けるのではないか? つまり、クローズドモデルの秘伝ノウハウを封じ込めるのは人材流動性が高い現代社会では無理なのではないか? ・よって時間たてばコモディティ化はしそう ・となると今のクローズドモデルを売るサービスをしているプレイヤーは基本的に時間を売っていることになり、この時間価値がどれぐらいなのかが重要な要素になる ・普通に考えると人は数ヶ月から1年は待てるわけなので、あんまり時間価値なんて無いように見える ・一方で、一部の市場制圧型のビジネス(最初に勝ったやつが勝つ)をしている企業は少しでも性能の高いモデルを早く手に入れるインセンティ��がある ・例えば創薬とか研究開発偏重な産業はそうかもしれない ・また、国家安全保障の文脈が入ってくる「国」というプレイヤーにとっては、大量の金を突っ込んでもいいか��少しでも早く入手、開発したいインセンティブがある ・Stargate Projectでトランプが75兆円突っ込んでいるのはそういう文脈もあるのかもしれない 3) DeepSeek-R1を他プレイヤーがどのように活用するか? ・結構広範囲に活用できそうな予感がする ・賢いベースモデル+ルールベース報酬による強化学習+蒸留による小型化が効くことがわかった、というのは参入障壁がそこまで高くないのでいろんな研究機関、企業にとって朗報だと思う ・かつ、強化学習をどうやって行うかはまだまだほんとに全然黎明期な感触を受けた。工夫の余地はたくさんありそう。学習させる報酬の種類もデータ量も計算量もまだまだ増やしていけそう ・今のモデルは大きすぎるので、アプリケーションごとに区切ってバーティカルな小モデルをいろいろ作るべきみたいな話があり、R1をベースにカスタムモデルを作るのが流行る可能性はある ・バーティカル特化モデルの例でいうと、日本語の契約交渉のための能力をDeepSeek R1を使ってバキバキにあげますみたいなこともできるんちゃ���かと思う。 ・たとえば弁護士ががんばってCoTデータセットを手で作る+契約書評価報酬でRFするみたいな感じで弁護士的推論LLM作る、みたいな感じでできそう 4) DeepSeekはOpenAIに勝てんのか? ・DeepSeekは圧倒的にAPI費用が安い。OpenAIよりはるかに安い ・でもおそらくまったく元は取れていない価格設定になっているはずで、持続性はない ・MoEアーキテクチャだから最小構成でH800(弱GPU)で数百台ぐらいはいるのではないか?という意見あり ・DeepSeekがここまで低価格でやっている狙いはよくわからないが、あるとすると広告宣伝だと思って払っているのではないか? ・現状圧倒的な価格優位性を持っているわけではなさそうで、OpenAIに対して持続的に優位に立てる要素は現状見当たらない ・が、DeepSeekがいきなりすごいのを出してくる可能性は常に���るので今後に期待 ========= あくまでゆる仮説なので、ツッコミ歓迎です・・・!
0
0
0
RT @sekikazu01: 【拡散と購入希望】 1月25日(土)に「ノンデザイナーのためのFigma入門」を秀和システム様より出版します🔥 プロトタイプや開発、スライド作成などFigma・FigJamの幅広い使い方を詰め込みました。 Figmaと戯れたい全ての方、ぜひ手…
0
72
0