odashi_t Profile Banner
Odashi Profile
Odashi

@odashi_t

Followers
21K
Following
1
Statuses
6K

最近はLLMの基礎研究をしています。 国立情報学研究所 特任准教授 シェルパ・アンド・カンパニー株式会社 テクニカルディレクター

Tokyo, Japan
Joined December 2009
Don't wanna be here? Send us removal request.
@odashi_t
Odashi
6 days
LLM-jp-3に150M, 440M, 980M, 7.2Bを追加して全8モデルのシリーズにしました。大体2倍でパラメータが増えていきます。Pythiaの日本語版を作ろうと思って取り組んでいました(僕の趣味)。13B以下はApacheで使用可能です。 DPO適用で応答性能を上げたinstruct3も公開しました。
@llm_jp
LLM勉強会(LLM-jp)
8 days
LLM-jp-3シリーズに150M、440M、980M、7.2Bのモデルが追加されました。また、LLM-jp-3 シリーズの全ベースモデルに対して、 Supervised Fine-Tuning を適用した「instruct2」モデルと、加えて Direct Preference Optimization を適用した「instruct3」モデルを公開しました。
1
7
60
@odashi_t
Odashi
7 hours
@ceekz わかる
0
0
0
@odashi_t
Odashi
7 hours
「出来らあっ!」 「いまなんていった?」 「未経験でもJavaエンジニアが務まるっていったんだよ!!」 「こりゃあどうしても未経験でJavaエンジニアをやってもらおう」 「え!! 未経験でJavaエンジニアを!?」
0
0
5
@odashi_t
Odashi
7 hours
さっき飲んでいましたが、まずdeep researchに竹橋近辺の店を調べてもらい、1発目で存在しないだろう店舗名を案内され、2発目で前から気になっていた店が出てきたので、そこに行きました。
0
0
2
@odashi_t
Odashi
8 hours
少なくともFaaSはいらん
0
0
0
@odashi_t
Odashi
13 hours
RT @orangeitems_: 過去何度かお勧めしたことがある本です。DXが進んで来た現在、ITじゃない人も読んだ方がいいかもしれません。ITに居る人ですら怪しいまま仕事をしている人も多い位なので。 マスタリングTCP/IP入門編 もう全人類読んでほしい本 - My na…
0
101
0
@odashi_t
Odashi
13 hours
ハイパースケーラ基本的に既存のパッケージでしかクラスタ売らないので、サーバやネットワークのちょっとしたカスタマイズなど不可能だし、用途に合わないと一気に使いづらくなる
0
0
4
@odashi_t
Odashi
13 hours
自前鯖缶民がハードウェア対応をさくらとタッグでやるのはかなり理にかなってると思います。Google CloudとAWSとABCIとさくらインターネットでGPUクラスタ運用してきているけど、現状さくらが一番運用しやすい
0
2
15
@odashi_t
Odashi
13 hours
これはえらすぎる
@hpp_ricecake
hpp
14 hours
日英4.4T tokensで学習した日本語ModernBERTを公開しました!! 系列長8192、語彙数は日英10万、パラメータ数130Mながら既存largeモデルと同等以上の性能があります 12データセッ���による既存BERT系モデルの網羅的な評価も行いましたので、そちらもぜひ!!
0
0
12
@odashi_t
Odashi
13 hours
RT @hpp_ricecake: 日英4.4T tokensで学習した日本語ModernBERTを公開しました!! 系列長8192、語彙数は日英10万、パラメータ数130Mながら既存largeモデルと同等以上の性能があります 12データセットによる既存BERT系モデルの網羅…
0
77
0
@odashi_t
Odashi
13 hours
銀行のログインでseckey使えるようにしてほしい
0
0
0
@odashi_t
Odashi
14 hours
DeepSeekのオフライン推論を研究室の人間がABCI上で試し、トークンあたりのコストは製品の数倍かかるが完全に入出力をクローズにできるので運用するなら許容範囲だろうとなった。
1
4
36
@odashi_t
Odashi
15 hours
pretraining(事前学習)とfine-tuning (post-training; 事後学習) の間の学習をmid-trainingと言うが、日本語は何か、という話になり、そのまま中間学習でいいのでは、と結論された。
0
0
18
@odashi_t
Odashi
2 days
NVDAやS&P500が乱高下しようが知ったことではないですが、それを引き起こしている投資家に心底呆れてはいます。
0
0
12
@odashi_t
Odashi
2 days
こういうところからLlamaライセンスに派生してモデルの利用制限が付くなどすると目も当てられないことになりそう。モデルツリーの根本にいるモデルほど透明性が大事になるいい例かもしれない。
0
15
59
@odashi_t
Odashi
2 days
LLM出現後に新しいプログラミング言語が生まれるのかですが、個人の趣味などを除いても、たとえ��LLMへの指示方法自体が体系化されてプログラミング言語になり、それ特化のモデルも現れると思っています。
0
10
51
@odashi_t
Odashi
2 days
?「年を取って何を言わないのかを考えるようになりました」 ??「それ言っちゃうんだ」 ???「お前もそういうこと言っちゃうんだ」 ????「あなたもですか、奇遇ですね」 ?????「ハハハ」
0
1
19
@odashi_t
Odashi
2 days
@vez00153 5.6M USDと言っているレポートでH800を2048枚使ったとも言っていますが、これの購入費を考えるとよいと思います、というか5.6Mでは人件費も払えないんじゃないですかね
1
0
0
@odashi_t
Odashi
3 days
@pie2yb8 そんなつまらない理由では文句言わないですね…
0
0
1