カモシカ🤗 @kam0shika profile

新しいデータ処理ライブラリの学習はもう不要！ Python 初学者のための Ibis 100 本ノック - Qiita

6

71

331

カモシカ🤗

@kam0shika

9 months

この度「Python初学者のためのIbis 100本ノック」という学習コンテンツを作りました！Ibisは @IbisData が開発する統合データ処理ライブラリであり18を超えるライブラリを統一記法で操作できます。長期目線で低コストな開発を実現できる等メリットが多いのでぜひ見て下さい！

Information2024/7/24：Ibis-Polars vs Native PolarsIbis-Polars と Native Polars の処理速度の比較記事を書かれている方…

Kaggle で使える NLP トリックのあれこれ - Qiita

0

34

206

カモシカ🤗

@kam0shika

3 months

需要あるか分かりませんが自分も個人的に作ってた Kaggle NLP コンペのトリックのメモ書きがあったので有益なZenn記事に便乗してアップしてみます🙏(主に2022年のメモなので情報は少し古いです)

この記事は何？kunishou が 2022 年 1 月～ 2023 年 3 月の期間に Kaggle の NLP コンペに参加していたときにまとめていた NLP トリックの雑なメモ書きです。…

kam0shika/AmazingCA-7B-QLoRA · Hugging Face

0

24

193

カモシカ🤗

@kam0shika

1 year

TLはrinnna-3.6Bの新モデルで賑わっているところですが、OpenCALM 7B, 3Bをファインチューニングして作成したアダプタを公開します！すぐに触れるcolab notebookのリンクも貼ってあるので興味がある方は触ってみて下さい。 ■7B-QLoRA ■3B-QLoRA

kunishou/OpenMathInstruct-1-1.8m-ja · Datasets at Hugging Face

2

41

159

カモシカ🤗

@kam0shika

7 months

NVIDIA が先日公開した商用利用可能なデータセット OpenMathInstruct-1 を日本語に翻訳したので公開します。GSM8K、MATH ベンチマークのトレーニングセットと Mixstral を活用して作成された数学問題に関する180万レコードの指示チューニングデータセットです。

GitHub - kunishou/do-not-answer-ja

0

36

155

カモシカ🤗

@kam0shika

1 year

8月にメルボルン大学が公開したLLM向けの安全性評価データセットを日本語に翻訳&日本文化を考慮して修正したデータセット『Do-Not-Answer-Ja』を作成したので公開します！リポジトリに３つのモデルで評価した結果も載せてます。日本語LLMの安全性評価にぜひご活用下さい。

Contribute to kunishou/do-not-answer-ja development by creating an account on GitHub.

GitHub - lmmlzn/Awesome-LLMs-Datasets: Summarize existing representative LLMs text datasets.

1

35

151

カモシカ🤗

@kam0shika

7 months

既存の代表的な LLM の事前学習、指示チューニング、嗜好、評価、および従来の NLP に関するデータセットの包括的なまとめ。データセットを作る人は一読しておいたほうが良さそう 👀 Awesome-LLMs-Datasets

Summarize existing representative LLMs text datasets. - lmmlzn/Awesome-LLMs-Datasets

PDFがスルスル読める！話題のLlamaParseとは

1

19

141

カモシカ🤗

@kam0shika

7 months

最近出てきた LlamaParse 、複雑なPDFも解析できるとのことだったのでLlamaIndexのデモページで日本語論文PDFを試しに入力してみたけどテキストの欠損が多すぎてだめでした....

zenn.dev

0

15

132

カモシカ🤗

@kam0shika

1 year

PEFTについては少し前に見かけたプレインパッドさんの記事も分かりやすいです。Ada LoRAも試してみたいけど論文のみでレポジトリとかはないみたい。

LLMを効率的に再学習する手法(PEFT)を解説 - Platinum Data Blog by BrainPad

本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。 // 新URLを作成 var domain = "https://www.brainpad.co.jp/doors/contents/01_tech_2023-05-22-153000/"; // 新ドメイン（最後のス…

blog.brainpad.co.jp

1

18

113

カモシカ🤗

@kam0shika

1 year

理化学研究所のデータ作成プロジェクト。オープンソースになるなら参加しても良いかも。 LLMのための日本語インストラクションデータ作成プロジェクト

Project of Development of Japanese Instruction data for LLM

Mon, 31 Jul 2023 11:00 - 12:00 This event will be done only in Japanese. Please refer the Japanese page for the detail.

c5dc59ed978213830355fc8978.doorkeeper.jp

0

26

113

カモシカ🤗

@kam0shika

11 months

使われてるデータセットを見て笑ってしまった。自称コントリビューターを名乗らせていただきます🙇‍♂️

2

24

113

カモシカ🤗

@kam0shika

9 months

毎年恒例！今年も Python/データ分析関連で人気だったQiita記事150選を記事にまとめてみました！サラッと見るだけでもこの1年の技術動向の振り返りになると思います。よろしくお願いします🙇‍♂️

2023年 Python / データ分析関連の人気Qiita記事150選 - Qiita

はじめにどうもこんにちは。kunishouです。2023年も残すところ今日、明日のみ。皆さん年の瀬をいかがお過ごしでしょうか？今年も昨年と同様、仕事も勉強もしなくていい日が数日続き、すでにソワソ…

kunishou/J-ResearchCorpus · Datasets at Hugging Face

0

9

109

カモシカ🤗

@kam0shika

7 months

先日公開した日本語論文データセット J-ResearchCorpus に言語処理学会誌「自然言語処理」のうちCC-BY-4.0公開の論文360本から抽出した良質なテキストデータを追加しました。データセットの総文字数は1,000万文字増えて約2,800万文字になります(トークン換算で1B目指したい)

48個の LLM を用いた Instruction データセットの品質スコアリング - Qiita

2

29

104

カモシカ🤗

@kam0shika

10 months

LLM Advent Calendar 2023 1日目の記事を投稿しました！Instructionデータセットの品質スコアリング方法を提案、検証してみた話になります。長文ですがよろしくお願いします🙇‍♂️

LLM Advent Calendar 2023についてこんにちは、LLM Advent Calendar 2023を企画しましたkunishouです。今年も気づけばあっという間に12月ですが皆さ…

kunishou/oasst2-135k-ja · Datasets at Hugging Face

1

21

103

カモシカ🤗

@kam0shika

10 months

OpenAssistant/oasst2 を日本語に翻訳したデータセット oasst2-135k-ja を作成し公開しました！(翻訳にはDeepL翻訳を使用) 日本語LLMの開発にぜひご活用下さい。

kunishou/ApolloCorpus-ja · Datasets at Hugging Face

4

29

101

カモシカ🤗

@kam0shika

6 months

てか今月のLLM勉強会の資料ってすでに公開されてるんですね (公式アカウントのほうではつぶやいてくれないのか....😂)

第8回 LLM 勉強会

2024年3月26日（火）に国立情報学研究所にて第8回 LLM 勉強会を開催しました。

llm-jp.nii.ac.jp

1

13

99

カモシカ🤗

@kam0shika

11 months

ちなみにW&Bのイベントで秋葉さんがOpenAIのチーム規模に言及していましたが、事前学習チームよりもファインチューニングチーム(SFT & RLHF)のほうが大きいことからもチューニングフェーズがやっぱ大事なんだなと感じました(ちなみに一番大きいのは意外にも評価チーム)

カモシカ🤗

@kam0shika

11 months

新しいLLMが出たり事前学習用データセットのRedPajama-Data-v2が出たり....でもInstructionデータセットはあまり出てこないんですよね(GPT-4由来はたくさんあるけど) そう考えるとやっぱInstructionデータセット、特によりタスク多様性に富んだInstructionデータセットが重要になると思うんです。

2

8

35

0

12

95

カモシカ🤗

@kam0shika

1 year

ちょっと図が混み混み&概念的ですがいただいたコメントも踏まえるとこんな感じです。ちなみに学習率は論文の値の2倍にしたほうが良かったと論文著者が言ってます。

カモシカ🤗

@kam0shika

1 year

ReLoRA、こんなことしてるものとイメージしましたがどうなんでしょうかね？

2

6

82

0

10

88

カモシカ🤗

@kam0shika

1 year

ReLoRA、こんなことしてるものとイメージしましたがどうなんでしょうかね？

2

6

82

カモシカ🤗

@kam0shika

1 year

あの論文どうなったの？ランキング 1位 ReLoRA 1Bモデルの実験結果もうすぐ出るぜ、以降ポストが止まる 2位中部大学のPruning 発表時は注目されたけどその後の動向が聞こえてこない 3位 SparseGPT OPT-175BやBLOOM-176Bの60% Pruning、発表後に使ってる人を見たことがない

1

4

81

カモシカ🤗

@kam0shika

7 months

多言語医療データセットである ApolloCorpus の一部(525k)を日本語に翻訳したので公開します(オープンな医療系データセットは国内初？) 医療領域のLLMに利用する際は、データセットに自動翻訳による翻訳誤りが一部含まれていることに注意した上でご使用下さい。

GitHub - kunishou/GenerativeAI-Cost

1

22

76

カモシカ🤗

@kam0shika

1 year

日本語翻訳されたInstructionデータセットのテキストデータを日本語BERTでembedding → t-SNEで次元圧縮→可視化してみた。dollyはデータ数も少ないこともあって全体的に疎な感じ、alpacaは広くカバーしてるけど右上だけ欠けてるのでoasst1やmpt-hh-rlhf��右上をカバーするといい感じになるのかも。

1

15

70

カモシカ🤗

@kam0shika

4 months

自分用にまとめた各種LLMのAPIコスト一覧。Opusの圧倒的な料金の高さ！(値下げして〜😩)

Contribute to kunishou/GenerativeAI-Cost development by creating an account on GitHub.

GitHub - kunishou/amenokaku-code-instruct

1

11

71

カモシカ🤗

@kam0shika

5 months

先日のNLPコロキウムの講演で秋葉さんが「マージは過学習する点に気をつける。Chatbot Arena Leaderboardはマージで過学習させたモデルが上位を占めていてもう機能していない」と言った主旨のことを話していましたがこの辺はみんな胸に強く刻んでおいたほうが良いかもしれない。

1

17

70

カモシカ🤗

@kam0shika

1 year

日本語のコードタスクに特化したInstructionデータセット『AmenokakuCode-instruct』を作成、公開しました。既存のInstructionデータセットにマージして隠し味的に使ってみて下さい。また、自身のコードコンテンツを提供しても良いよというか方いましたら是非ご連絡下さい🙇‍♂️

Contribute to kunishou/amenokaku-code-instruct development by creating an account on GitHub.

無料 GPT-4 アプリを活用した Instruction データセット作成の取り組み - Qiita

3

25

70

カモシカ🤗

@kam0shika

10 months

LLM Advent Calendar 2023 25日目の記事を投稿しました！無料 GPT-4アプリを活用した Instruction データセット作成にチャレンジした話になります。投稿済みの3つの記事で紹介してきた技術を駆使しました。よろしくお願いします。

※ 本題から逸れますが本日、OpneAssistant/oasst2 を日本語に翻訳した oasst2-135k-ja を公開しました。こちらのデータセットも LLM 開発にぜひご活用下さい。ku…

kunishou/J-ResearchCorpus · Datasets at Hugging Face

1

18

68

カモシカ🤗

@kam0shika

7 months

J-ResearchCorpus に NLP2024 の論文を含む、日本語のCC-BY論文 1,343 本のデータを新たに追加しました。データセットの文字数は2,800万→3,900万文字になりました。1Bトークンを目指して今後も定期的にデータを追加していきます。

Claude の Projects にライブラリのリファレンスを丸ごと入れてみる - Qiita

1

16

68

カモシカ🤗

@kam0shika

10 months

Meta の Llama-2-7b-chat-hf は291万件のデータで強化学習してるのでこのモデルを追加学習したELYZA Llamaの安全性は鉄壁でした。Swallow はベースモデルから追加学習しているようなので安全性に関しては差があるかもしれませんね (まぁDPOすればいいんですけど)

1

5

62

カモシカ🤗

@kam0shika

11 months

RLHFの報酬モデル作成で精度が出なかったので諦めてDirect Preference Optimization (DPO)でモデル最適化をやってみました。DPOの効果を以前公開した安全性評価データセット Do-Not-Answer-Jaの抜粋データで評価しました。緑色がDPO後ですが不適切な指示に回答しない割合がちゃんと増加していました。

1

11

63

カモシカ🤗

@kam0shika

3 months

ClaudeのProjectsにリファレンスのドキュメントを丸ごとアップロードしたらちゃんと質問に回答してくれるのかを試してみました！

概要　Anthropic 社の生成 AI サービスである Claude から Projects という機能が新しく公開されました。今回は、この Projects に特定のライブラリのリファレンスを…

kunishou/HelpSteer-35k-ja · Datasets at Hugging Face

0

21

63

カモシカ🤗

@kam0shika

1 year

ReLoRAの動作確認ができた。LLaMA 3BをA100 80GBでバッチサイズ2、お試し2万ステップで4時間(バッチサイズはもっと上げられます)。これはlossがちゃんと下がってないのか壮大な学習のほんの冒頭だからこんなものなのか🤔

3

6

62

カモシカ🤗

@kam0shika

7 months

NVIDIA が公開している SteerLM 向けのデータセット HelpSteer を日本語に翻訳したので公開いたします。SteerLM は KARAKURI LM にも採用されているパラメータ調整方式のアライメント手法です。DPO よりもよりきめ細かいアライメントをやりたいという方はぜひお試し下さい。

LLM における強化学習と Direct Preference Optimization による安全性能への影響評価 - Qiita

2

19

61

カモシカ🤗

@kam0shika

9 months

お、公式アカからのポストはまだだけど今日のLLM勉強会の資料すでにアップロードされていた👀 時間ある時に読もう。

0

6

57

カモシカ🤗

@kam0shika

1 year

Japanese Do-Not-Answer Leaderboardにlineのjapanese-large-lm-3.6bと松尾研のweblab-10bの評価結果を追加しました！各モデル、どのリスク領域の指示に強くて弱いのかが見えて面白いですね。

カモシカ🤗

@kam0shika

1 year

8月にメルボルン大学が公開したLLM向けの安全性評価データセットを日本語に翻訳&日本文化を考慮して修正したデータセット『Do-Not-Answer-Ja』を作成したので公開します！リポジトリに３つのモデルで評価した結果も載せてます。日本語LLMの安全性評価にぜひご活用下さい。

1

35

151

0

15

58

カモシカ🤗

@kam0shika

10 months

LLM Advent Calendar 2023 18日目の記事を投稿しました！強化学習(PPO)やDirect Preference OptimizationによるLLMの安全性能への影響や、その他のタスク性能への影響を定量評価しました。よろしくお願いします。

はじめにどうもこんにちは、kunishouです。本記事は LLM Advent Calendar 2023 18日目の記事になります。LLMアドカレも終盤に差し掛かかってきました。私は今回のLLM…

日本語LLMチューニングデータ最前線 - W&B ミートアップ #12 in 東京 (2024/03/28 18:30〜)

1

16

57

カモシカ🤗

@kam0shika

1 year

QLoRAでの学習が上手くいかないというお声をいただきましたので私のQLoRAのコードリンクを7B, 3Bそれぞれのreadmeに追記しました。ご参考になれば幸いです。

カモシカ🤗

@kam0shika

1 year

TLはrinnna-3.6Bの新モデルで賑わっているところですが、OpenCALM 7B, 3Bをファインチューニングして作成したアダプタを公開します！すぐに触れるcolab notebookのリンクも貼ってあるので興味がある方は触ってみて下さい。 ■7B-QLoRA ■3B-QLoRA

2

41

159

1

15

55

カモシカ🤗

@kam0shika

7 months

この度、3/28(木)開催のW&B ミートアップ #12 in 東京で登壇することになりました！日本語LLM開発のための指示調整データセット作成に関するこれまでの取り組みと今後についてお話しさせていただきます。興味のある方は是非ご参加下さい！

# イベント概要今回のWeights & Biasesミートアップは、LLMのファインチューニング（特に指示チューニング）に用いるデータにフォーカスを当てます。2023年初めに日本語LLM開発が一段と活発になってから1年が経過し、LLMのビジネスタスクへの適用を考える際のモデルの選択肢も随分と増えてきました。また、会社によっては社内開発した基盤モデルが各事業部門に引き渡されて活用を模索して...

wandb.connpass.com

1

18

56

カモシカ🤗

@kam0shika

1 year

国産の大規模言語モデル（LLM）の開発を行う「SB Intuitions株式会社」が本格的に稼働 | 企業・IR | ソフトバンク #SoftBank

国産の大規模言語モデル（LLM）の開発を行う「SB Intuitions株式会社」が本格的に稼働 | 企業・IR | ソフトバンク

ソフトバンクの公式ホームページです。企業・IRの「国産の大規模言語モデル（LLM）の開発を行う「SB Intuitions株式会社」が本格的に稼働」をご紹介します。

www.softbank.jp

0

10

51

カモシカ🤗

@kam0shika

6 months

BERTの評価はSeen設定(ベンチマークのtrainデータセットで教師あり学習)なのに対して、LLMの評価がUnseen設定前提なのはLLMのSoTA的存在のGPT-4がUnseenでしか評価できないからで、Seen設定で勝てても意味がないしSeen設定OKが広まるとLLMのベンチマークやリーダーボードが正しく機能しなくなります。

畠山　歓　Kan Hatakeyama

@kanhatakeyama

6 months

BERT頃までは、皆、普通にそういうことをやっていたので、言語モデルの進化速度に驚くとともに、LLMの評価の難しさに恐れ入るばかりです。

0

12

0

7

52

カモシカ🤗

@kam0shika

1 year

商用利用可能！？

Matt Shumer

@mattshumer_

1 year

LLaMA 2.0 is coming soon. Seems like it will be: - commercially usable - closer to closed models like GPT-4/Claude 2 in capabilities Excited to see the landscape shift.

13

152

620

0

21

50

カモシカ🤗

@kam0shika

5 months

言語処理学会で最優秀賞を受賞していた UnTrac-Inv って今後実装が公開されたりしないのかな？めっちゃ試してみたいんだよなぁ👀

0

4

49

カモシカ🤗

@kam0shika

7 months

そういえば仕事で携わってた案件がリリースされました(普段はちゃんと仕事してます笑) Yahoo!広告検索広告、広告文を生成AIが提案する機能の提供開始｜LINEヤフー株式会社

Yahoo!広告検索広告、広告文を生成AIが提案する機能の提供開始｜LINEヤフー株式会社

生成AIがタイトル・説明文を提案。効率的な広告作成が可能に

www.lycorp.co.jp

1

5

48

カモシカ🤗

@kam0shika

9 months

今朝公開した oasst2-135k-ja をチャット形式に変換した oasst2-chat-68k-ja も公開しました(変換処理には6時間ほどかかりました)。マルチターン会話学習する際はこちらをご活用下さい。

kunishou/oasst2-chat-68k-ja · Datasets at Hugging Face

GitHub - kunishou/GenerativeAI-Cost

0

15

46

カモシカ🤗

@kam0shika

6 months

今日、部署の懇親会があるんだけど先日ゲットしたイケてるTシャツを着ていくことにします (イケてるよね？)

0

3

42

カモシカ🤗

@kam0shika

3 months

GPT-4o mini の料金をコスト一覧に追加しました！

Contribute to kunishou/GenerativeAI-Cost development by creating an account on GitHub.

kunishou/HelpSteer2-20k-ja · Datasets at Hugging Face

1

5

42

カモシカ🤗

@kam0shika

1 year

@kis YOASOBIがYoutubeの週間再生数で世界一になった理由を嫁さんに聞いたら、Tiktokで踊る曲として秀逸だっのが大きいみたいです。何が起爆剤になるか分からない世の中ですね。

1

10

41

カモシカ🤗

@kam0shika

9 months

ShareGPTデータとか使ったらOpenAIの規約関係で非商用モデルになってしまうし、GPT-4 , 3.5で知識蒸留したら GPT-4 , 3.5 に近い性能が出ました！って言われても技術的に何ら新しさもないので、これをやるモチベーションを理解できないんだけど自分の感覚がずれてるのかな？🤔

カモシカ🤗

@kam0shika

9 months

>RT MTベンチで日本語公開モデルで最高性能になっているのか。ShareGPTやSlimOrcaを使ってさえいなければすごかったですね。

0

9

0

10

39

カモシカ🤗

@kam0shika

1 year

GPU版ヤシマ作戦の実現が現実味を帯びてきた！！

Itamar Golan 🤓

@ItakGol

1 year

This is insane! 😱 You can now train a 100-billion parameters LLM on Google Colab. Explanation and code below ⤵️⤵️⤵️ --- TL;DR --- Distributed training over the Internet has become operational with the release of the new version of the PETALS distributed training package.

28

344

1K

0

15

41

カモシカ🤗

@kam0shika

1 month

大人の階段をまたひとつ登ってしまった🤗

5

0

41

カモシカ🤗

@kam0shika

11 months

ちなみDPOは必ずしも応答の安全性を向上させるためだけのものではなく、例えばInstructionに対して語尾がずんだもんになっているものをchosen、そうなっていないものをrejectedとしたデータでDPOすればずんだもん口調で応答するよう最適化されたモデルが作れると思います。

カモシカ🤗

@kam0shika

11 months

先日のlineモデルに続き、rinna 3.6BをDPOしたモデルをDo-Not-Answer-Jaの抜粋データで安全性評価した結果が出ました。結果はPPOよりも不適切な指示に応答しない割合が高くなりました。PPOはSFTモデルよりも安全性は低いという意外な結果になりました。

1

7

24

1

6

40

カモシカ🤗

@kam0shika

4 months

NVIDIA の Nemotron-4-340B-Reward のトレーニングにも使われているHelpSteer2を日本語に翻訳したデータセット HelpSteer2-20k-ja を作成したので公開します！SteerLMや日本語の報酬モデル作成にご活用下さい🙏

AIチャットへの質問、1割近くが「性的な内容」--安全なAIを目指す研究者らの取り組み

1

14

40

カモシカ🤗

@kam0shika

1 year

ReLoRAを使えれば、7BくらいのモデルならA100 8台を10日くらい回せば事前学習モデル作れるのでは！？

0

10

39

カモシカ🤗

@kam0shika

1 year

もうGPT系の日本語事前学習モデルはレッドオーシャンだな。となるとLlama2系なんだけど1ヶ月後にはこっちの日本語モデルもrinnaから公開されてそう。もうオリジナルの事前学習データセットを用意してモデル作るしか差別化は図れなそう....

2

6

39

カモシカ🤗

@kam0shika

1 year

この結果は納得で、私も半年ほど前に無料でGPT-4を使えるアプリでInstruction収集をしましたが5割近くが不適切な指示で涙目になりました(途中体調を崩した影響で諸々まだ作業中です😇) AIチャットへの質問、1割近くが「性的な内容」--安全なAIを目指す研究者らの取り組み

プログラミングのヒントや文章の書き方だけでなく、人々は他の分野でも「安全な」情報を求めている。ここでは、研究者らがそのために進めている取り組みを紹介する。

japan.cnet.com

0

15

38

カモシカ🤗

@kam0shika

11 months

LLaMA1と2の違い👇

論文紹介 / Llama 2: Open Foundation and Fine-Tuned Chat Models

第15回最先端NLP勉強会

speakerdeck.com

すでぃー

@sudy_super

11 months

@有識者 LLaMA-2とLLaMAってどこが違うんですか？ config見てもどっちもLLaMAForCausalLMなんですが

2

1

7

2

5

37

カモシカ🤗

@kam0shika

6 months

これ度々言ってるけど労働人口あたりのGDPで見ないと意味がないですよ。日本は労働人口減ってるからGDPは成長鈍化してるけど労働人口あたりで見ると成長してます。 "From 1998 to 2019, Japan has grown slightly faster than the U.S. in terms of per working-age adult."

ライブドアニュース

@livedoornews

6 months

【日経報道】日本のGDPが5位に下落する見通し、インドに追い越される IMFは、2025年のインドのGDPは4兆3398億ドルで、日本の4兆3103億ドルを抜いて4位になると予想。昨年10月には26年にインドが日本のGDPを超えると予想されていたが、今月の修正見通しで1年前倒しとなった。

600

5K

18K

0

12

36

カモシカ🤗

@kam0shika

5 months

ありがたいことにまたLLM関連のお仕事のお話をいただきました。が、すでにプライベートで案件をたくさん抱えてるのでこれ以上受けるのはさすがに厳しいか！？こういう状況だと法人を立てたほうが自分(自社)が受注して仲間と協力して案件を遂行するみたいなこともできるからやりやすいのかな？👀

2

0

37

カモシカ🤗

@kam0shika

10 months

あとスマホのタッチパネルの基礎技術を発明したのは東工大出身、筑波大の教授だった白川英樹先生で、2000年にノーベル化学賞も受賞してるんだけど最近の人は知らないのかな？この発明がなければiPhoneはおろかスマホ自体存在しなかったわけです。

これもノーベル化学賞？！スマホのパネル｜チコちゃん×NHKニュースノーベル賞ってなんでえらいの？｜NHK NEWS WEB

チコちゃんがＮＨＫのニュースサイトでノーベル賞を特集。身近な暮らしとノーベル化学賞とのかかわりを紹介。いまや日々の生活に欠かせないスマートフォンもノーベル賞の技術が支えています。

www3.nhk.or.jp

あるふ

@alfredplpl

10 months

iPhoneがなぜ日本で作れなかったかより、そもそもスマホの売りであるカメラ機能は日本が初だし、スマートウォッチも日本初だし、そういうところを忘れてはいけない

0

14

72

0

5

36

カモシカ🤗

@kam0shika

11 months

以前公開したInstructionデータセットのoasst1-jaをチャット形式に変換したデータセットを作成したので公開します。マルチターン会話でのファインチューニングをする際にご活用下さい(商用利用も可能です)

kunishou/oasst1-chat-44k-ja · Datasets at Hugging Face

MaskedLM Pretrain For Deberat-V3-Large

1

18

36

カモシカ🤗

@kam0shika

6 months

の進化的モデルマージが一瞬でできるようになった将来の世界では質問する度にモデルが瞬時に再構築されてもはやモデルという概念がなくなっているかもしれない🤔(モデルというよりパーツという認識になってるのかも)

2

10

35

カモシカ🤗

@kam0shika

3 months

MLMのおすすめノートブックだとPPPMコンペのこれですかね。これをちょろっといじれば、より高難度タスクなWWM (Whole Word Masking)もやれます。

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

kfsky（クフスキー）

@kfsky_tane

3 months

kaggleのノートブックでおおすめないかな？

1

0

2

1

3

35

カモシカ🤗

@kam0shika

11 months

新しいLLMが出たり事前学習用データセットのRedPajama-Data-v2が出たり....でもInstructionデータセットはあまり出てこないんですよね(GPT-4由来はたくさんあるけど) そう考えるとやっぱInstructionデータセット、特によりタスク多様性に富んだInstructionデータセットが重要になると思うんです。

2

8

35

カモシカ🤗

@kam0shika

7 months

強化ガラスは温度変化などで突然割れることありますね。私も家の車の窓ガラスが停車してて何もしてないのに突然割れたことあります(たぶん夏場の昼→夜の気温変化で割れた) 強化ガラスの自然破損

窓ガラス（複層ガラス）のことならAGCのGlass Plaza

AGCが運営する建築用ガラス・窓専門総合サイトGlass Plaza。

www.asahiglassplaza.net

ながやま

@naga_yamas

7 months

奮発して買ったシャープのオーブンレンジが突然留守中にこうなったのは未だに許していない😡　一人暮らしには単機能レンジでいい

64

3K

24K

0

19

34

カモシカ🤗

@kam0shika

6 months

日本人のサポートエンジニアが必要ですよね！？私ならいつでもやれますよ！🤣 OpenAI、アジア初の拠点日本に　法人向けにサービス

OpenAI、アジア初の拠点を日本に　法人向けにサービス

対話型の生成AI（人工知能）「Chat（チャット）GPT」を開発した米オープンAIがアジア初となる拠点を4月中に日本で立ち上げ、事業活動を始める。法人向けに独自サービスを提供するほか、生成AIの適切な利用に向けたルールづくりに加わる。オープンAIは2022年にチャットGPTを公開し、世界的な生成AIブームの火付け役となった。23年4月にはサム・アルトマン最高経営責任者（CEO）が来日し、岸田文

www.nikkei.com

1

0

33

カモシカ🤗

@kam0shika

1 year

ファインチューニングではLoRAできるけど事前学習でもLoRAみたいなことできないのかな。今のFTでは知識獲得よりも語学力獲得の効果が強いと感じるので、簡単に知識を追加するために事前学習領域にアダプタをアドオンできるようになると便利だなと。

1

5

33

カモシカ🤗

@kam0shika

11 months

ちょうど先ほどからQiitaアドベントカレンダーの登録が始まったみたいなのでとりあえず作ってみました！

LLM - Qiita Advent Calendar 2023 - Qiita

Calendar page for Qiita Advent Calendar 2023 regarding LLM.

ABEJA GPTモデルにおけるアーキテクチャの工夫 - ABEJA Tech Blog

0

16

33

カモシカ🤗

@kam0shika

7 months

イライザがKDDI傘下になったのは驚き。KDDI傘下になったことでコストの心配なく生成AIの社会実装に全集中できる反面、これまでみたいにほいほいオープンソースでモデル公開はしなくなりそうですね👀

1

0

32

カモシカ🤗

@kam0shika

11 months

>RT LLMへのdropoutの適用はABEJAさんの13Bモデルでやってるのを見たことがあります。lossスパイクを抑制できたり、性能は向上するが学習時間は長くなるとのことです。

1. はじめに 2. 先行研究からの学び 3. 前提 4. アーキテクチャ変更候補活性化関数の変更 (SwishGLU) Transformer layerの並列化 biasパラメータ除去 Input-Output Embeddingの共有 (Weight tying) 5. 小規模モデルでの実験実験設定 Tran…

tech-blog.abeja.asia

0

7

32

カモシカ🤗

@kam0shika

10 months

ELYZA-tasks-100で7B以上のモデルを網羅的に評価した非常に有益な記事！JGLUEでの評価と違って感覚的に正しいモデル性能を表してるように見えます(ELYZA Llama、calm2が高い、llm-jpが低い等) 昨日公開されたばかのSwallowも評価されておりもう素晴らしいという言葉しか出ません🙇‍♂️

Ryousuke_Wayama

@wayama_ryousuke

10 months

ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた #Qiita アドカレ #Qiita #LLM 日本語LLMって色々あるけどベンチだけじゃよくわからんな、ということで検証してみた結果を記事にしてみました openchat、Swallow等発表されたばかりのLLMについても検証してみてます

0

57

212

0

6

31

カモシカ🤗

@kam0shika

4 months

NvidiaのNemotron-4-340B-InstructをカモシカChatからも使えるようにしました！誰でも触れるのでぜひ使ってみて下さい！(340Bあるだけレスポンスに少し時間がかかります) カモシカChatゲストユーザー

1

7

30

カモシカ🤗

@kam0shika

1 year

OpenCALM 7Bを134Kデータセットで5epoch学習させました。VRAM 80GBのA100で34時間かかりました。期待していたよりも良い性能が出てないなという感想です(3Bのほうが良かった)。

1

2

28

カモシカ🤗

@kam0shika

1 year

“エヌビディアからAI開発に適した半導体GPU（画像処理半導体）を2240基調達するとしていて”

0

11

28

カモシカ🤗

@kam0shika

7 months

Cotomoさんの相槌処理の話でrinnaさんのCHATSって言う自然な会話を実現する研究を思い出した。

rinna Research

@rinna_research

1 year

AIエージェント同士のテキスト対話から自然な音声対話を生成する手法 CHATS (CHatty Agents Text-to-Speech) を開発しました。自然なタイミングでのターンテイキング、相槌、笑い声を実現する音声を生成します。動画はGPT-4によるテキスト対話から生成した音声対話です。

4

417

1K

0

7

28

カモシカ🤗

@kam0shika

2 months

本当だ。Gemini 1.5 flash の新価格は8/12から適用とのこと。入力が$0.075/Mって破格すぎる。そしてあえてGPT-4o miniの半額でぶつけてきたな(熾烈な価格競争....😂)

1

28

カモシカ🤗

@kam0shika

10 months

ふと気づいたけど現職に転職してから2年が経過してた(2年前の12/1に転職)。前職は総合職だったから前職のままだったらきっと今頃データ分析とは違うことやってたと思うと転職して本当に良かったです。まさか2年後、LLM大好きマンになってるとは思いませんでしたが😂

2年間勉強してデータアナリストに転職した話｜kun1emon

こんにちは、@kun1em0nと申します。初noteです。この度、2021年11月末を持って新卒から10年半務めた会社を退職し12月よりデータアナリスト職に転職しました。前職は大手JTCにてずっとデータ分析業務に携わってきましたが、転職活動を始めた時点では機械学習については未経験でした。今回、このような状態から無事にデータアナリストへの転職を成功させることができたので自分のこの転職経験が誰か...

note.com

0

2

28

カモシカ🤗

@kam0shika

11 months

省メモリで強化学習やDPOをするケースにおいて、まずSFTモデルをLoRAで作り、そのSFTモデルに対してさらに強化学習・DPOをLoRAでやるなど、複数回LoRAが発生する際にはマージする必要があると思います。

Why is the adapter layer merged in gpt-neox-20b_peft? · Issue #250 · huggingface/trl

In the gpt-neox-20b_peft example, step 1 is the SFT with lora, step 2 is the merging of the trained lora adapters' weights into the base model, and step 3 is loading the merged model for PPO tr...

kunishou/cosmopedia-100k-ja-preview · Datasets at Hugging Face

kaeru

@mryo39

11 months

loraのmerge_and_unloadってどういうときに使うんだろう。普通にモデル読み込んだあとにアダプターを読み込むのじゃだめなんか。lora出たばっかの時には必要なかった気がするんだけど…。

1

0

2

1

5

27

カモシカ🤗

@kam0shika

1 year

こちらはトークナイザーをカスタマイズして日本語語彙を追加してるのがポイントですね。英語語彙だけのトークナイザーで日本語を追加学習した場合は入力データが unkwonになりモデルが正しく学習できないです(日本人の生徒(モデル)に向かって先生がひたすら謎の言語で授業してるような状態)。

うみゆき@AI研究

@umiyuki_ai

1 year

ふ～む、ELYZA-japanese-Llama-2-7b。僕は「事前学習で日本語の素養を身に付けてないモデルは追加学習してもダメ。というのは微調整って結局事前学習の知識を引き出すだけのもんだから」っててっきり思ってたけど、このモデルで日本語品質爆上がってるという事は、つまり後付けで日本語覚えさせられる

0

22

128

0

6

27

カモシカ🤗

@kam0shika

7 months

Cosmopedia-100kのindex 40k-100kの60k 分を日本語に翻訳しました。 @AiXsatoshi さんの翻訳中の結果にマージされて 100k になる予定です。

Huggingface Transformers 入門 (16) - 言語モデルの学習スクリプト｜npaka

1

9

26

カモシカ🤗

@kam0shika

1 year

>RT Instruction Tuning (IT)は知識を学習するものではなく、Instruction-Responseのスタイルを学習するものなのでこうなるのかなと。通常のファインチューニング(run_clm.py)で知識を与えた後にITを数エポックだけやれば解消すると思います。

以下の記事を参考に書いてます。・Language model examples - huggingface/transformers 前回 1. 言語モデルの学習テキストデータセットでの「言語モデル」のファインチューニング（または0からの学習）を行います。モデル毎に以下の損失で学習します。・CLM（Causal Language Modeling）: GPT、GPT-2 ・MLM（Ma...

note.com

1

26

カモシカ🤗

@kam0shika

1 year

以前公開した日本語版OASST1のコード関連データの翻訳誤りを2000箇所程度、修正しました！(1週間ほどかけてテキスト内のコード部分をコード原文に修正) これによりコード生成指示した際に生成コードが不自然になる現象が緩和されると思われます。

1

12

25

カモシカ🤗

@kam0shika

1 year

ベースモデルにLoRAをつけるとパラメータ数がどれぐらい変わるのか気になったのでOpenCALM 7Bで確認してみたけど420万パラメータくらい増えてますね。なので複数回LoRAをすると徐々にベースモデルは肥大化していくことになりますね(言われるとそりゃそうだよねって思いますが)。

1

2

25

カモシカ🤗

@kam0shika

11 months

昨日の実験結果、「instructionに重複があっても良い」という前提が間違っているのかもと思い、calm2に作らせたAugmentationデータのみでもSFTしてみました。そしたらオリジナルデータでのSFTよりも精度が良いという面白い結果に。自前のinstructionがあれば calm2でSemi-Self-Instructできそうです。

カモシカ🤗

@kam0shika

11 months

以前日本語翻訳したoasst1に対してData Augmentationを試してみました。oasst1に含まれる約2万件のユニークなinstructionに対するresponse部分をcalm2を用いて新しく作成し増強しました。JGLUEで評価したところ画像のような結果になりました。なかなか簡単にはいかないですね。

3

2

11

2

6

24

カモシカ🤗

@kam0shika

1 year

ちなみにELYZAのLlamaはかなり鉄壁で確実にリスクを意識したチューニングがされてるのを感じました。

カモシカ🤗

@kam0shika

1 year

8月にメルボルン大学が公開したLLM向けの安全性評価データセットを日本語に翻訳&日本文化を考慮して修正したデータセット『Do-Not-Answer-Ja』を作成したので公開します！リポジトリに３つのモデルで評価した結果も載せてます。日本語LLMの安全性評価にぜひご活用下さい。

1

35

151

0

4

24

カモシカ🤗

@kam0shika

1 year

JGLUEの平均スコアでの比較、とても分かりやすくて良い！OpenCALM 7Bより3Bのほうがスコアが良いのは意外。Instructチューニングレスなモデルだとrinnaの3.6BよりもCALM 3Bのほうが良いのでCALM 3BをPPOすればトップスコアになる可能性ありますね。

rinna Research

@rinna_research

1 year

Stability AI Japan ( @StabilityAI_JP ) によりオープンソースの日本語言語モデルが比較評価されています。現時点では rinna/japanese-gpt-neox-3.6b-instruction-ppo が全評価基準で最も高いスコアです。

1

76

276

0

4

24

カモシカ🤗

@kam0shika

11 months

先日のlineモデルに続き、rinna 3.6BをDPOしたモデルをDo-Not-Answer-Jaの抜粋データで安全性評価した結果が出ました。結果はPPOよりも不適切な指示に応答しない割合が高くなりました。PPOはSFTモデルよりも安全性は低いという意外な結果になりました。

カモシカ🤗

@kam0shika

11 months

先日はlineモデルでDirect Preference Optimization をやったけどrinnaの3.6BモデルでもDPO中。rinna 3.6B PPOモデルとどっちがPreferableになるかを見るためです。

1

3

12

1

7

24

カモシカ🤗

@kam0shika

1 year

Hugging FaceのTシャツほしいな

0

2

23

カモシカ🤗

@kam0shika

10 months

mistral-8x7b の日本語モデルを作って yamatano-orochi って命名したいです

1

3

23

カモシカ🤗

@kam0shika

11 months

lineモデルで試した応答もそうだったけどDPOしたあとのLLMが鉄壁すぎる(応答を拒否するどころかこちらがかなり怒られてる感じすらする笑)

0

5

22

カモシカ🤗

@kam0shika

1 year

“高いデータ処理能力を有する計算環境を構築し、自社で取り組む生成AIの開発およびその他のAI関連事業に活用する他、生成AIを中心とした社外からのさまざまな利用ニーズに応えるため、大学や研究機関、企業などへ幅広く提供していく予定です。”

経済産業省による「クラウドプログラム」の供給確保計画の認定について～生成AIの基盤開発に必要な計算環境を産学官へ幅広く提供～ | 企業・IR | ソフトバンク

ソフトバンクの公式ホームページです。企業・IRの「経済産業省による「クラウドプログラム」の供給確保計画の認定について～生成AIの基盤開発に必要な計算環境を産学官へ幅広く提供～」をご紹介します。

www.softbank.jp

0

6

22

カモシカ🤗

@kam0shika

10 months

LLM Advent Calendar 2023 5日目の記事を投稿しました！ローカルLLMを用いてInstructionデータセットのData Augmentation、Evol-Instructができるのかを検証してみた話になります。

ローカル LLM を用いた Instruction データセットの Data Augmentation と Evol-Instruct - Qiita

はじめにどうもこんにちは、kunishou です。本記事は LLM Advent Calendar 2023 5日目の記事になります。LLM アドカレも毎日面白い記事の連続で、自分も他の記事に見劣…