カモシカ🤗 Profile Banner
カモシカ🤗 Profile
カモシカ🤗

@kam0shika

Followers
768
Following
173
Media
229
Statuses
6,095

May the LLM be with you 🦙 メガベンチャー ← JTな通信会社 / Kaggle Expert / LLM向けデータセットを多数公開/ 体調を崩したらカモシカに転生してました. いつか人間に戻りたい

Joined May 2014
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
@kam0shika
カモシカ🤗
4 months
【お知らせ】 この度、GPT-4o、Claude 3.0、Gemini 1.5などのチャットモデルを無料で利用できるWebアプリを作成したので公開します!(昨年やっていた取り組みの延長です)アプリに興味がある方、Claude 3.0 Opus等を触ってみたい方はぜひ使ってみて下さい! *カモシカChat*
Tweet media one
Tweet media two
2
50
335
@kam0shika
カモシカ🤗
8 months
日本語論文PDFからテキスト抽出するのが難しい。というポストを先日見かけましたが自分もトライしてみたので公開します。まずはCC-BY公開の言語処理系論文1,300本(2021〜2023)、医学系論文100本、他110本、約1,800万文字です。日本語LLMの事前学習やRAG等にご活用下さい。
6
71
331
@kam0shika
カモシカ🤗
9 months
この度「Python初学者のためのIbis 100本ノック」という学習コンテンツを作りました!Ibisは @IbisData が開発する統合データ処理ライブラリであり18を超えるライブラリを統一記法で操作できます。長期目線で低コストな開発を実現できる等メリットが多いのでぜひ見て下さい!
0
34
206
@kam0shika
カモシカ🤗
3 months
需要あるか分かりませんが自分も個人的に作ってた Kaggle NLP コンペのトリックのメモ書きがあったので有益なZenn記事に便乗してアップしてみます🙏(主に2022年のメモなので情報は少し古いです)
0
24
193
@kam0shika
カモシカ🤗
1 year
TLはrinnna-3.6Bの新モデルで賑わっているところですが、OpenCALM 7B, 3Bをファインチューニングして作成したアダプタを公開します!すぐに触れるcolab notebookのリンクも貼ってあるので興味がある方は触ってみて下さい。 ■7B-QLoRA ■3B-QLoRA
2
41
159
@kam0shika
カモシカ🤗
7 months
NVIDIA が先日公開した商用利用可能なデータセット OpenMathInstruct-1 を日本語に翻訳したので公開します。GSM8K、MATH ベンチマーク のトレーニングセットと Mixstral を活用して作成された数学問題に関する180万レコードの指示チューニングデータセットです。
0
36
155
@kam0shika
カモシカ🤗
1 year
8月にメルボルン大学が公開したLLM向けの安全性評価データセットを日本語に翻訳&日本文化を考慮して修正したデータセット『Do-Not-Answer-Ja』を作成したので公開します!リポジトリに3つのモデルで評価した結果も載せてます。日本語LLMの安全性評価にぜひご活用下さい。
1
35
151
@kam0shika
カモシカ🤗
7 months
既存の代表的な LLM の事前学習、指示チューニング、嗜好、評価、および従来の NLP に関するデータセットの包括的なまとめ。データセットを作る人は一読しておいたほうが良さそう 👀 Awesome-LLMs-Datasets
1
19
141
@kam0shika
カモシカ🤗
7 months
最近出てきた LlamaParse 、複雑なPDFも解析できるとのことだったのでLlamaIndexのデモページで日本語論文PDFを試しに入力してみたけどテキストの欠損が多すぎてだめでした....
0
15
132
@kam0shika
カモシカ🤗
1 year
理化学研究所のデータ作成プロジェクト。オープンソースになるなら参加しても良いかも。 LLMのための日本語インストラクションデータ作成プロジェクト
0
26
113
@kam0shika
カモシカ🤗
11 months
使われてるデータセットを見て笑ってしまった。自称コントリビューターを名乗らせていただきます🙇‍♂️
Tweet media one
2
24
113
@kam0shika
カモシカ🤗
9 months
毎年恒例!今年も Python/データ分析関連で人気だったQiita記事150選を記事にまとめてみました!サラッと見るだけでもこの1年の技術動向の振り返りになると思います。よろしくお願いします🙇‍♂️
0
9
109
@kam0shika
カモシカ🤗
7 months
先日公開した日本語論文データセット J-ResearchCorpus に言語処理学会誌「自然言語処理」のうちCC-BY-4.0公開の論文360本から抽出した良質なテキストデータを追加しました。データセットの総文字数は1,000万文字増えて約2,800万文字になります(トークン換算で1B目指したい)
2
29
104
@kam0shika
カモシカ🤗
10 months
LLM Advent Calendar 2023 1日目の記事を投稿しました!Instructionデータセットの品質スコアリング方法を提案、検証してみた話になります。長文ですがよろしくお願いします🙇‍♂️
1
21
103
@kam0shika
カモシカ🤗
10 months
OpenAssistant/oasst2 を日本語に翻訳したデータセット oasst2-135k-ja を作成し公開しました!(翻訳にはDeepL翻訳を使用) 日本語LLMの開発にぜひご活用下さい。
4
29
101
@kam0shika
カモシカ🤗
6 months
てか今月のLLM勉強会の資料ってすでに公開されてるんですね (公式アカウントのほうではつぶやいてくれないのか....😂)
1
13
99
@kam0shika
カモシカ🤗
11 months
ちなみにW&Bのイベントで秋葉さんがOpenAIのチーム規模に言及していましたが、事前学習チームよりもファインチューニングチーム(SFT & RLHF)のほうが大きいことからもチューニングフェーズがやっぱ大事なんだなと感じました(ちなみに一番大きいのは意外にも評価チーム)
Tweet media one
@kam0shika
カモシカ🤗
11 months
新しいLLMが出たり事前学習用データセットのRedPajama-Data-v2が出たり....でもInstructionデータセットはあまり出てこないんですよね(GPT-4由来はたくさんあるけど) そう考えるとやっぱInstructionデータセット、特によりタスク多様性に富んだInstructionデータセットが重要になると思うんです。
2
8
35
0
12
95
@kam0shika
カモシカ🤗
1 year
ちょっと図が混み混み&概念的ですがいただいたコメントも踏まえるとこんな感じです。ちなみに学習率は論文の値の2倍にしたほうが良かったと論文著者が言ってます。
Tweet media one
@kam0shika
カモシカ🤗
1 year
ReLoRA、こんなことしてるものとイメージしましたがどうなんでしょうかね?
Tweet media one
2
6
82
0
10
88
@kam0shika
カモシカ🤗
1 year
ReLoRA、こんなことしてるものとイメージしましたがどうなんでしょうかね?
Tweet media one
2
6
82
@kam0shika
カモシカ🤗
1 year
あの論文どうなったの?ランキング 1位 ReLoRA 1Bモデルの実験結果もうすぐ出るぜ、以降ポストが止まる 2位 中部大学のPruning 発表時は注目されたけどその後の動向が聞こえてこない 3位 SparseGPT OPT-175BやBLOOM-176Bの60% Pruning、発表後に使ってる人を見たことがない
1
4
81
@kam0shika
カモシカ🤗
7 months
多言語医療データセットである ApolloCorpus の一部(525k)を日本語に翻訳したので公開します(オープンな医療系データセットは国内初?) 医療領域のLLMに利用する際は、データセットに自動翻訳による翻訳誤りが一部含まれていることに注意した上でご使用下さい。
1
22
76
@kam0shika
カモシカ🤗
1 year
日本語翻訳されたInstructionデータセットのテキストデータを日本語BERTでembedding → t-SNEで次元圧縮→可視化してみた。dollyはデータ数も少ないこともあって全体的に疎な感じ、alpacaは広くカバーしてるけど右上だけ欠けてるのでoasst1やmpt-hh-rlhf���右上をカバーするといい感じになるのかも。
Tweet media one
1
15
70
@kam0shika
カモシカ🤗
4 months
自分用にまとめた各種LLMのAPIコスト一覧。Opusの圧倒的な料金の高さ!(値下げして〜😩)
1
11
71
@kam0shika
カモシカ🤗
5 months
先日のNLPコロキウムの講演で秋葉さんが「マージは過学習する点に気をつける。Chatbot Arena Leaderboardはマージで過学習させたモデルが上位を占めていてもう機能していない」と言った主旨のことを話していましたがこの辺はみんな胸に強く刻んでおいたほうが良いかもしれない。
1
17
70
@kam0shika
カモシカ🤗
1 year
日本語のコードタスクに特化したInstructionデータセット『AmenokakuCode-instruct』を作成、公開しました。既存のInstructionデータセットにマージして隠し味的に使ってみて下さい。また、自身のコードコンテンツを提供しても良いよというか方いましたら是非ご連絡下さい🙇‍♂️
3
25
70
@kam0shika
カモシカ🤗
10 months
LLM Advent Calendar 2023 25日目の記事を投稿しました!無料 GPT-4アプリを活用した Instruction データセット作成にチャレンジした話になります。投稿済みの3つの記事で紹介してきた技術を駆使しました。よろしくお願いします。
1
18
68
@kam0shika
カモシカ🤗
7 months
J-ResearchCorpus に NLP2024 の論文を含む、日本語のCC-BY論文 1,343 本のデータを新たに追加しました。データセットの文字数は2,800万→3,900万文字になりました。1Bトークンを目指して今後も定期的にデータを追加していきます。
1
16
68
@kam0shika
カモシカ🤗
10 months
Meta の Llama-2-7b-chat-hf は291万件のデータで強化学習してるのでこのモデルを追加学習したELYZA Llamaの安全性は鉄壁でした。Swallow はベースモデルから追加学習しているようなので安全性に関しては差があるかもしれませんね (まぁDPOすればいいんですけど)
Tweet media one
1
5
62
@kam0shika
カモシカ🤗
11 months
RLHFの報酬モデル作成で精度が出なかったので諦めてDirect Preference Optimization (DPO)でモデル最適化をやってみました。DPOの効果を以前公開した安全性評価データセット Do-Not-Answer-Jaの抜粋データで評価しました。緑色がDPO後ですが不適切な指示に回答しない割合がちゃんと増加していました。
Tweet media one
1
11
63
@kam0shika
カモシカ🤗
1 year
ReLoRAの動作確認ができた。LLaMA 3BをA100 80GBでバッチサイズ2、お試し2万ステップで4時間(バッチサイズはもっと上げられます)。これはlossがちゃんと下がってないのか壮大な学習のほんの冒頭だからこんなものなのか🤔
Tweet media one
Tweet media two
3
6
62
@kam0shika
カモシカ🤗
7 months
NVIDIA が公開している SteerLM 向けのデータセット HelpSteer を日本語に翻訳したので公開いたします。SteerLM は KARAKURI LM にも採用されているパラメータ調整方式のアライメント手法です。DPO よりもよりきめ細かいアライメントをやりたいという方はぜひお試し下さい。
2
19
61
@kam0shika
カモシカ🤗
9 months
お、公式アカからのポストはまだだけど今日のLLM勉強会の資料すでにアップロードされていた👀 時間ある時に読もう。
0
6
57
@kam0shika
カモシカ🤗
1 year
Japanese Do-Not-Answer Leaderboardにlineのjapanese-large-lm-3.6bと松尾研のweblab-10bの評価結果を追加しました!各モデル、どのリスク領域の指示に強くて弱いのかが見えて面白いですね。
Tweet media one
@kam0shika
カモシカ🤗
1 year
8月にメルボルン大学が公開したLLM向けの安全性評価データセットを日本語に翻訳&日本文化を考慮して修正したデータセット『Do-Not-Answer-Ja』を作成したので公開します!リポジトリに3つのモデルで評価した結果も載せてます。日本語LLMの安全性評価にぜひご活用下さい。
1
35
151
0
15
58
@kam0shika
カモシカ🤗
10 months
LLM Advent Calendar 2023 18日目の記事を投稿しました!強化学習(PPO)やDirect Preference OptimizationによるLLMの安全性能への影響や、その他のタスク性能への影響を定量評価しました。よろしくお願いします。
1
16
57
@kam0shika
カモシカ🤗
1 year
QLoRAでの学習が上手くいかないというお声をいただきましたので私のQLoRAのコードリンクを7B, 3Bそれぞれのreadmeに追記しました。ご参考になれば幸いです。
@kam0shika
カモシカ🤗
1 year
TLはrinnna-3.6Bの新モデルで賑わっているところですが、OpenCALM 7B, 3Bをファインチューニングして作成したアダプタを公開します!すぐに触れるcolab notebookのリンクも貼ってあるので興味がある方は触ってみて下さい。 ■7B-QLoRA ■3B-QLoRA
2
41
159
1
15
55
@kam0shika
カモシカ🤗
6 months
BERTの評価はSeen設定(ベンチマークのtrainデータセットで教師あり学習)なのに対して、LLMの評価がUnseen設定前提なのはLLMのSoTA的存在のGPT-4がUnseenでしか評価できないからで、Seen設定で勝てても意味がないしSeen設定OKが広まるとLLMのベンチマークやリーダーボードが正しく機能しなくなります。
@kanhatakeyama
畠山 歓 Kan Hatakeyama
6 months
BERT頃までは、皆、普通にそういうことをやっていたので、 言語モデルの進化速度に驚くとともに、LLMの評価の難しさに恐れ入るばかりです。
0
0
12
0
7
52
@kam0shika
カモシカ🤗
1 year
商用利用可能!?
@mattshumer_
Matt Shumer
1 year
LLaMA 2.0 is coming soon. Seems like it will be: - commercially usable - closer to closed models like GPT-4/Claude 2 in capabilities Excited to see the landscape shift.
13
152
620
0
21
50
@kam0shika
カモシカ🤗
5 months
言語処理学会で最優秀賞を受賞していた UnTrac-Inv って今後実装が公開されたりしないのかな?めっちゃ試してみたいんだよなぁ👀
Tweet media one
0
4
49
@kam0shika
カモシカ🤗
7 months
そういえば仕事で携わってた案件がリリースされました(普段はちゃんと仕事してます笑) Yahoo!広告 検索広告、広告文を生成AIが提案する機能の提供開始|LINEヤフー株式会社
1
5
48
@kam0shika
カモシカ🤗
9 months
今朝公開した oasst2-135k-ja をチャット形式に変換した oasst2-chat-68k-ja も公開しました(変換処理には6時間ほどかかりました)。マルチターン会話学習する際はこちらをご活用下さい。
0
15
46
@kam0shika
カモシカ🤗
6 months
今日、部署の懇親会があるんだけど先日ゲットしたイケてるTシャツを着ていくことにします (イケてるよね?)
Tweet media one
0
3
42
@kam0shika
カモシカ🤗
1 year
@kis YOASOBIがYoutubeの週間再生数で世界一になった理由を嫁さんに聞いたら、Tiktokで踊る曲として秀逸だっのが大きいみたいです。何が起爆剤になるか分からない世の中ですね。
1
10
41
@kam0shika
カモシカ🤗
9 months
ShareGPTデータとか使ったらOpenAIの規約関係で非商用モデルになってしまうし、GPT-4 , 3.5で知識蒸留したら GPT-4 , 3.5 に近い性能が出ました!って言われても技術的に何ら新しさもないので、これをやるモチベーションを理解できないんだけど自分の感覚がずれてるのかな?🤔
@kam0shika
カモシカ🤗
9 months
>RT MTベンチで日本語公開モデルで最高性能になっているのか。ShareGPTやSlimOrcaを使ってさえいなければすごかったですね。
0
0
9
0
10
39
@kam0shika
カモシカ🤗
1 year
GPU版ヤシマ作戦の実現が現実味を帯びてきた!!
@ItakGol
Itamar Golan 🤓
1 year
This is insane! 😱 You can now train a 100-billion parameters LLM on Google Colab. Explanation and code below ⤵️⤵️⤵️ --- TL;DR --- Distributed training over the Internet has become operational with the release of the new version of the PETALS distributed training package.
Tweet media one
Tweet media two
Tweet media three
28
344
1K
0
15
41
@kam0shika
カモシカ🤗
1 month
大人の階段をまたひとつ登ってしまった🤗
Tweet media one
5
0
41
@kam0shika
カモシカ🤗
11 months
ちなみDPOは必ずしも応答の安全性を向上させるためだけのものではなく、例えばInstructionに対して語尾がずんだもんになっているものをchosen、そうなっていないものをrejectedとしたデータでDPOすればずんだもん口調で応答するよう最適化されたモデルが作れると思います。
Tweet media one
@kam0shika
カモシカ🤗
11 months
先日のlineモデルに続き、rinna 3.6BをDPOしたモデルをDo-Not-Answer-Jaの抜粋データで安全性評価した結果が出ました。結果はPPOよりも不適切な指示に応答しない割合が高くなりました。PPOはSFTモデルよりも安全性は低いという意外な結果になりました。
Tweet media one
1
7
24
1
6
40
@kam0shika
カモシカ🤗
4 months
NVIDIA の Nemotron-4-340B-Reward のトレーニングにも使われているHelpSteer2を日本語に翻訳したデータセット HelpSteer2-20k-ja を作成したので公開します!SteerLMや日本語の報酬モデル作成にご活用下さい🙏
1
14
40
@kam0shika
カモシカ🤗
1 year
ReLoRAを使えれば、7BくらいのモデルならA100 8台を10日くらい回せば事前学習モデル作れるのでは!?
0
10
39
@kam0shika
カモシカ🤗
1 year
もうGPT系の日本語事前学習モデルはレッドオーシャンだな。となるとLlama2系なんだけど1ヶ月後にはこっちの日本語モデルもrinnaから公開されてそう。もうオリジナルの事前学習データセットを用意してモデル作るしか差別化は図れなそう....
2
6
39
@kam0shika
カモシカ🤗
1 year
この結果は納得で、私も半年ほど前に無料でGPT-4を使えるアプリでInstruction収集をしましたが5割近くが不適切な指示で涙目になりました(途中体調を崩した影響で諸々まだ作業中です😇) AIチャットへの質問、1割近くが「性的な内容」--安全なAIを目指す研究者らの取り組み
0
15
38
@kam0shika
カモシカ🤗
11 months
LLaMA1と2の違い👇
@sudy_super
すでぃー
11 months
@有識者 LLaMA-2とLLaMAってどこが違うんですか? config見てもどっちもLLaMAForCausalLMなんですが
2
1
7
2
5
37
@kam0shika
カモシカ🤗
6 months
これ度々言ってるけど労働人口あたりのGDPで見ないと意味がないですよ。日本は労働人口減ってるからGDPは成長鈍化してるけど労働人口あたりで見ると成長してます。 "From 1998 to 2019, Japan has grown slightly faster than the U.S. in terms of per working-age adult."
Tweet media one
@livedoornews
ライブドアニュース
6 months
【日経報道】日本のGDPが5位に下落する見通し、インドに追い越される IMFは、2025年のインドのGDPは4兆3398億ドルで、日本の4兆3103億ドルを抜いて4位になると予想。昨年10月には26年にインドが日本のGDPを超えると予想されていたが、今月の修正見通しで1年前倒しとなった。
Tweet media one
600
5K
18K
0
12
36
@kam0shika
カモシカ🤗
5 months
ありがたいことにまたLLM関連のお仕事のお話をいただきました。が、すでにプライベートで案件をたくさん抱えてるのでこれ以上受けるのはさすがに厳しいか!?こういう状況だと法人を立てたほうが自分(自社)が受注して仲間と協力して案件を遂行するみたいなこともできるからやりやすいのかな?👀
2
0
37
@kam0shika
カモシカ🤗
10 months
あとスマホのタッチパネルの基礎技術を発明したのは東工大出身、筑波大の教授だった白川英樹先生で、2000年にノーベル化学賞も受賞してるんだけど最近の人は知らないのかな?この発明がなければiPhoneはおろかスマホ自体存在しなかったわけです。
@alfredplpl
あるふ
10 months
iPhoneがなぜ日本で作れなかったかより、そもそもスマホの売りであるカメラ機能は日本が初だし、スマートウォッチも日本初だし、そういうところを忘れてはいけない
0
14
72
0
5
36
@kam0shika
カモシカ🤗
11 months
以前公開したInstructionデータセットのoasst1-jaをチャット形式に変換したデータセットを作成したので公開します。マルチターン会話でのファインチューニングをする際にご活用下さい(商用利用も可能です)
1
18
36
@kam0shika
カモシカ🤗
6 months
の進化的モデルマージが一瞬でできるようになった将来の世界では質問する度にモデルが瞬時に再構築されてもはやモデルという概念がなくなっているかもしれない🤔(モデルというよりパーツという認識になってるのかも)
2
10
35
@kam0shika
カモシカ🤗
3 months
MLMのおすすめノートブックだとPPPMコンペのこれですかね。これをちょろっといじれば、より高難度タスクなWWM (Whole Word Masking)もやれます。
@kfsky_tane
kfsky(クフスキー)
3 months
kaggleのノートブックでおおすめないかな?
1
0
2
1
3
35
@kam0shika
カモシカ🤗
11 months
新しいLLMが出たり事前学習用データセットのRedPajama-Data-v2が出たり....でもInstructionデータセットはあまり出てこないんですよね(GPT-4由来はたくさんあるけど) そう考えるとやっぱInstructionデータセット、特によりタスク多様性に富んだInstructionデータセットが重要になると思うんです。
2
8
35
@kam0shika
カモシカ🤗
7 months
強化ガラスは温度変化などで突然割れることありますね。私も家の車の窓ガラスが停車してて何もしてないのに突然割れたことあります(たぶん夏場の昼→夜の気温変化で割れた) 強化ガラスの自然破損
@naga_yamas
ながやま
7 months
奮発して買ったシャープのオーブンレンジが突然留守中にこうなったのは未だに許していない😡 一人暮らしには単機能レンジでいい
Tweet media one
64
3K
24K
0
19
34
@kam0shika
カモシカ🤗
1 year
ファインチューニングではLoRAできるけど事前学習でもLoRAみたいなことできないのかな。今のFTでは知識獲得よりも語学力獲得の効果が強いと感じるので、簡単に知識を追加するために事前学習領域にアダプタをアドオンできるようになると便利だなと。
Tweet media one
1
5
33
@kam0shika
カモシカ🤗
11 months
ちょうど先ほどからQiitaアドベントカレンダーの登録が始まったみたいなのでとりあえず作ってみました!
0
16
33
@kam0shika
カモシカ🤗
7 months
イライザがKDDI傘下になったのは驚き。KDDI傘下になったことでコストの心配なく生成AIの社会実装に全集中できる反面、これまでみたいにほいほいオープンソースでモデル公開はしなくなりそうですね👀
1
0
32
@kam0shika
カモシカ🤗
10 months
ELYZA-tasks-100で7B以上のモデルを網羅的に評価した非常に有益な記事!JGLUEでの評価と違って感覚的に正しいモデル性能を表してるように見えます(ELYZA Llama、calm2が高い、llm-jpが低い等) 昨日公開されたばかのSwallowも評価されておりもう素晴らしいという言葉しか出ません🙇‍♂️
@wayama_ryousuke
Ryousuke_Wayama
10 months
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた #Qiita アドカレ #Qiita #LLM 日本語LLMって色々あるけどベンチだけじゃよくわからんな、ということで検証してみた結果を記事にしてみました openchat、Swallow等発表されたばかりのLLMについても検証してみてます
0
57
212
0
6
31
@kam0shika
カモシカ🤗
4 months
NvidiaのNemotron-4-340B-InstructをカモシカChatからも使えるようにしました!誰でも触れるのでぜひ使ってみて下さい!(340Bあるだけレスポンスに少し時間がかかります) カモシカChatゲストユーザー
1
7
30
@kam0shika
カモシカ🤗
1 year
OpenCALM 7Bを134Kデータセットで5epoch学習させました。VRAM 80GBのA100で34時間かかりました。期待していたよりも良い性能が出てないなという感想です(3Bのほうが良かった)。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
2
28
@kam0shika
カモシカ🤗
1 year
“エヌビディアからAI開発に適した半導体GPU(画像処理半導体)を2240基調達するとしていて”
0
11
28
@kam0shika
カモシカ🤗
7 months
Cotomoさんの相槌処理の話でrinnaさんのCHATSって言う自然な会話を実現する研究を思い出した。
@rinna_research
rinna Research
1 year
AIエージェント同士のテキスト対話から自然な音声対話を生成する手法 CHATS (CHatty Agents Text-to-Speech) を開発しました。 自然なタイミングでのターンテイキング、相槌、笑い声を実現する音声を生成します。 動画はGPT-4によるテキスト対話から生成した音声対話です。
4
417
1K
0
7
28
@kam0shika
カモシカ🤗
2 months
本当だ。Gemini 1.5 flash の新価格は8/12から適用とのこと。入力が$0.075/Mって破格すぎる。そしてあえてGPT-4o miniの半額でぶつけてきたな(熾烈な価格競争....😂)
Tweet media one
1
1
28
@kam0shika
カモシカ🤗
11 months
省メモリで強化学習やDPOをするケースにおいて、まずSFTモデルをLoRAで作り、そのSFTモデルに対してさらに強化学習・DPOをLoRAでやるなど、複数回LoRAが発生する際にはマージする必要があると思います。
@mryo39
kaeru
11 months
loraのmerge_and_unloadってどういうときに使うんだろう。普通にモデル読み込んだあとにアダプターを読み込むのじゃだめなんか。lora出たばっかの時には必要なかった気がするんだけど…。
1
0
2
1
5
27
@kam0shika
カモシカ🤗
1 year
こちらはトークナイザーをカスタマイズして日本語語彙を追加してるのがポイントですね。英語語彙だけのトークナイザーで日本語を追加学習した場合は入力データが unkwonになりモデルが正しく学習できないです(日本人の生徒(モデル)に向かって先生がひたすら謎の言語で授業してるような状態)。
@umiyuki_ai
うみゆき@AI研究
1 year
ふ~む、ELYZA-japanese-Llama-2-7b。僕は「事前学習で日本語の素養を身に付けてないモデルは追加学習してもダメ。というのは微調整って結局事前学習の知識を引き出すだけのもんだから」っててっきり思ってたけど、このモデルで日本語品質爆上がってるという事は、つまり後付けで日本語覚えさせられる
0
22
128
0
6
27
@kam0shika
カモシカ🤗
7 months
Cosmopedia-100kのindex 40k-100kの60k 分を日本語に翻訳しました。 @AiXsatoshi さんの翻訳中の結果にマージされて 100k になる予定です。
1
9
26
@kam0shika
カモシカ🤗
1 year
>RT Instruction Tuning (IT)は知識を学習するものではなく、Instruction-Responseのスタイルを学習するものなのでこうなるのかなと。通常のファインチューニング(run_clm.py)で知識を与えた後にITを数エポックだけやれば解消すると思います。
1
1
26
@kam0shika
カモシカ🤗
1 year
以前公開した日本語版OASST1のコード関連データの翻訳誤りを2000箇所程度、修正しました!(1週間ほどかけてテキスト内のコード部分をコード原文に修正) これによりコード生成指示した際に生成コードが不自然になる現象が緩和されると思われます。
Tweet media one
Tweet media two
1
12
25
@kam0shika
カモシカ🤗
1 year
ベースモデルにLoRAをつけるとパラメータ数がどれぐらい変わるのか気になったのでOpenCALM 7Bで確認してみたけど420万パラメータくらい増えてますね。なので複数回LoRAをすると徐々にベースモデルは肥大化していくことになりますね(言われるとそりゃそうだよねって思いますが)。
1
2
25
@kam0shika
カモシカ🤗
11 months
昨日の実験結果、「instructionに重複があっても良い」という前提が間違っているのかもと思い、calm2に作らせたAugmentationデータのみでもSFTしてみました。そしたらオリジナルデータでのSFTよりも精度が良いという面白い結果に。自前のinstructionがあれば calm2でSemi-Self-Instructできそうです。
Tweet media one
@kam0shika
カモシカ🤗
11 months
以前日本語翻訳したoasst1に対してData Augmentationを試してみました。oasst1に含まれる約2万件のユニークなinstructionに対するresponse部分をcalm2を用いて新しく作成し増強しました。JGLUEで評価したところ画像のような結果になりました。なかなか簡単にはいかないですね。
Tweet media one
3
2
11
2
6
24
@kam0shika
カモシカ🤗
1 year
ちなみにELYZAのLlamaはかなり鉄壁で確実にリスクを意識したチューニングがされてるのを感じました。
@kam0shika
カモシカ🤗
1 year
8月にメルボルン大学が公開したLLM向けの安全性評価データセットを日本語に翻訳&日本文化を考慮して修正したデータセット『Do-Not-Answer-Ja』を作成したので公開します!リポジトリに3つのモデルで評価した結果も載せてます。日本語LLMの安全性評価にぜひご活用下さい。
1
35
151
0
4
24
@kam0shika
カモシカ🤗
1 year
JGLUEの平均スコアでの比較、とても分かりやすくて良い!OpenCALM 7Bより3Bのほうがスコアが良いのは意外。Instructチューニングレスなモデルだとrinnaの3.6BよりもCALM 3Bのほうが良いのでCALM 3BをPPOすればトップスコアになる可能性ありますね。
@rinna_research
rinna Research
1 year
Stability AI Japan ( @StabilityAI_JP ) によりオープンソースの日本語言語モデルが比較評価されています。 現時点では rinna/japanese-gpt-neox-3.6b-instruction-ppo  が全評価基準で最も高いスコアです。
1
76
276
0
4
24
@kam0shika
カモシカ🤗
11 months
先日のlineモデルに続き、rinna 3.6BをDPOしたモデルをDo-Not-Answer-Jaの抜粋データで安全性評価した結果が出ました。結果はPPOよりも不適切な指示に応答しない割合が高くなりました。PPOはSFTモデルよりも安全性は低いという意外な結果になりました。
Tweet media one
@kam0shika
カモシカ🤗
11 months
先日はlineモデルでDirect Preference Optimization をやったけどrinnaの3.6BモデルでもDPO中。rinna 3.6B PPOモデルとどっちがPreferableになるかを見るためです。
1
3
12
1
7
24
@kam0shika
カモシカ🤗
1 year
Hugging FaceのTシャツほしいな
Tweet media one
0
2
23
@kam0shika
カモシカ🤗
10 months
mistral-8x7b の日本語モデルを作って yamatano-orochi って命名したいです
1
3
23
@kam0shika
カモシカ🤗
11 months
lineモデルで試した応答もそうだったけどDPOしたあとのLLMが鉄壁すぎる(応答を拒否するどころかこちらがかなり怒られてる感じすらする笑)
Tweet media one
0
5
22
@kam0shika
カモシカ🤗
1 year
“高いデータ処理能力を有する計算環境を構築し、自社で取り組む生成AIの開発およびその他のAI関連事業に活用する他、生成AIを中心とした社外からのさまざまな利用ニーズに応えるため、大学や研究機関、企業などへ幅広く提供していく予定です。”
0
6
22
@kam0shika
カモシカ🤗
10 months
LLM Advent Calendar 2023 5日目の記事を投稿しました!ローカルLLMを用いてInstructionデータセットのData Augmentation、Evol-Instructができるのかを検証してみた話になります。
0
12
22
@kam0shika
カモシカ🤗
10 months
とりあえず来週投稿予定だった記事を高速で仕上げた!明日投稿できそうです。
Tweet media one
@kam0shika
カモシカ🤗
10 months
気づいたらあさって12/5も辞退なされてる。これは来週投稿予定だった記事を界王拳3倍の速さで今日、明日で仕上げて代打するか....👀
1
1
3
1
5
22
@kam0shika
カモシカ🤗
3 months
家族で夢の国なう!しかも泊まり(さすがにPCは持ってこなかった笑)
Tweet media one
2
0
21
@kam0shika
カモシカ🤗
10 months
定期的にこの話題は出てくるけど転職エージェント内で5人くらい応募が集まったあとエージェント内で足切りして見込みのある人だけ企業に書類選考に出すのが通常ですね。企業側で落とされたのかエージェント内で切られたのか分からないので自分は直接応募派でした。
@hiyuuma
Azure Kamsaki Service
10 months
エージェントさんに応募依頼した企業様、書類落ちって聞いてたけど話の辻褄が合わなくてたぶんこいつ書類出してねぇなと思って直接応募したら書類選考通過してワロタ。
83
2K
12K
0
7
20
@kam0shika
カモシカ🤗
1 year
過去10年分のKaggleコミュニティで公開されたMLコードのデータセット!!
@kaggle
Kaggle
1 year
🚨 A new open dataset from the Kaggle Team is out! Meta Kaggle for Code is an open source dataset made up of ML code created & publicly shared by Kaggle’s community over the past decade 🤯. More on why we released it, how to use it, & licensing info 👇
Tweet media one
2
69
405
0
2
20
@kam0shika
カモシカ🤗
4 months
1週間遅れですが娘たちから父の日のプレゼントとお手紙をもらった。家でしょっちゅう着てるW&B Tシャツもしっかり再現されてます笑
Tweet media one
0
0
20
@kam0shika
カモシカ🤗
10 months
ひとまずLLM Advent Calendar 1日目の記事が書き終わった。自分で言うのもあれですがかなり良い記事に仕上がったと思います。そして残り3つの記事の執筆にも着手しないと。12月になるのが待ち遠しい!😆
0
2
19
@kam0shika
カモシカ🤗
1 year
リコーも実はサイバーやrinnaよりももっと前にGPTの6Bモデルを作っています。非公開なのでまったく注目されませんでしたが。
@Ina_pfgt
Tatsuro Inaba
1 year
国産LLMについて軽くまとめました. 忘れてるものがあればリプ等で🙏 時系列(新しい)順です. NEC ・13B(非公開) NICT ・40B(非公開) ・日本語Webテキストで学習 ・Fine-tuning / 強化学習を実施予定 ・179B も開発中
6
98
505
1
4
20