Odashi @odashi_t profile

Odashi

@odashi_t

Followers

21K

Following

1

Statuses

6K

最近はLLMの基礎研究をしています。国立情報学研究所特任准教授シェルパ・アンド・カンパニー株式会社テクニカルディレクター

Tokyo, Japan

Joined December 2009

Don't wanna be here? Send us removal request.

Odashi

@odashi_t

6 days

LLM-jp-3に150M, 440M, 980M, 7.2Bを追加して全8モデルのシリーズにしました。大体2倍でパラメータが増えていきます。Pythiaの日本語版を作ろうと思って取り組んでいました（僕の趣味）。13B以下はApacheで使用可能です。 DPO適用で応答性能を上げたinstruct3も公開しました。

LLM勉強会（LLM-jp）

@llm_jp

8 days

LLM-jp-3シリーズに150M、440M、980M、7.2Bのモデルが追加されました。また、LLM-jp-3 シリーズの全ベースモデルに対して、 Supervised Fine-Tuning を適用した「instruct2」モデルと、加えて Direct Preference Optimization を適用した「instruct3」モデルを公開しました。

1

7

60

Odashi

@odashi_t

7 hours

@ceekz わかる

0

Odashi

@odashi_t

7 hours

「出来らあっ！」「いまなんていった？」「未経験でもJavaエンジニアが務まるっていったんだよ！！」「こりゃあどうしても未経験でJavaエンジニアをやってもらおう」「え！！　未経験でJavaエンジニアを！？」

0

5

Odashi

@odashi_t

7 hours

さっき飲んでいましたが、まずdeep researchに竹橋近辺の店を調べてもらい、1発目で存在しないだろう店舗名を案内され、2発目で前から気になっていた店が出てきたので、そこに行きました。

0

2

Odashi

@odashi_t

8 hours

少なくともFaaSはいらん

0

Odashi

@odashi_t

13 hours

RT @orangeitems_: 過去何度かお勧めしたことがある本です。DXが進んで来た現在、ITじゃない人も読んだ方がいいかもしれません。ITに居る人ですら怪しいまま仕事をしている人も多い位なので。マスタリングTCP/IP入門編　もう全人類読んでほしい本 - My na…

0

101

0

Odashi

@odashi_t

13 hours

ハイパースケーラ基本的に既存のパッケージでしかクラスタ売らないので、サーバやネットワークのちょっとしたカスタマイズなど不可能だし、用途に合わないと一気に使いづらくなる

0

4

Odashi

@odashi_t

13 hours

自前鯖缶民がハードウェア対応をさくらとタッグでやるのはかなり理にかなってると思います。Google CloudとAWSとABCIとさくらインターネットでGPUクラスタ運用してきているけど、現状さくらが一番運用しやすい

0

2

15

Odashi

@odashi_t

13 hours

これはえらすぎる

hpp

@hpp_ricecake

14 hours

日英4.4T tokensで学習した日本語ModernBERTを公開しました！！系列長8192、語彙数は日英10万、パラメータ数130Mながら既存largeモデルと同等以上の性能があります 12データセッ��による既存BERT系モデルの網羅的な評価も行いましたので、そちらもぜひ！！

0

12

Odashi

@odashi_t

13 hours

RT @hpp_ricecake: 日英4.4T tokensで学習した日本語ModernBERTを公開しました！！系列長8192、語彙数は日英10万、パラメータ数130Mながら既存largeモデルと同等以上の性能があります 12データセットによる既存BERT系モデルの網羅…

0

77

0

Odashi

@odashi_t

13 hours

銀行のログインでseckey使えるようにしてほしい

0

Odashi

@odashi_t

14 hours

DeepSeekのオフライン推論を研究室の人間がABCI上で試し、トークンあたりのコストは製品の数倍かかるが完全に入出力をクローズにできるので運用するなら許容範囲だろうとなった。

1

4

36

Odashi

@odashi_t

15 hours

pretraining（事前学習）とfine-tuning (post-training; 事後学習) の間の学習をmid-trainingと言うが、日本語は何か、という話になり、そのまま中間学習でいいのでは、と結論された。

0

18

Odashi

@odashi_t

2 days

NVDAやS&P500が乱高下しようが知ったことではないですが、それを引き起こしている投資家に心底呆れてはいます。

0

12

Odashi

@odashi_t

2 days

こういうところからLlamaライセンスに派生してモデルの利用制限が付くなどすると目も当てられないことになりそう。モデルツリーの根本にいるモデルほど透明性が大事になるいい例かもしれない。

0

15

59

Odashi

@odashi_t

2 days

LLM出現後に新しいプログラミング言語が生まれるのかですが、個人の趣味などを除いても、たとえ��LLMへの指示方法自体が体系化されてプログラミング言語になり、それ特化のモデルも現れると思っています。

0

10

51

Odashi

@odashi_t

2 days

？「年を取って何を言わないのかを考えるようになりました」？？「それ言っちゃうんだ」？？？「お前もそういうこと言っちゃうんだ」？？？？「あなたもですか、奇遇ですね」？？？？？「ハハハ」

0

1

19

Odashi

@odashi_t

2 days

@vez00153 5.6M USDと言っているレポートでH800を2048枚使ったとも言っていますが、これの購入費を考えるとよいと思います、というか5.6Mでは人件費も払えないんじゃないですかね

1

0

Odashi

@odashi_t

3 days

@pie2yb8 そんなつまらない理由では文句言わないですね…

0

1