Kohya Tech @kohya_tech profile

Kohya Tech

@kohya_tech

Followers

5,472

Following

41

Media

422

Statuses

6,308

機械学習、プログラム、電子工作などの話題のアカウントです。 sd-scripts

日本

Joined December 2022

Don't wanna be here? Send us removal request.

Explore tweets Explore followers Explore following

Explore trending content on Musk Viewer

LINGORM FILL • 558252 Tweets

#MerzAestheticsXหลิงออม • 555809 Tweets

期日前投票 • 81913 Tweets

GEMFOT x TSS2024 • 73795 Tweets

#プロセカ放送局 • 55339 Tweets

SchoolStar x NamtanFilm • 40426 Tweets

Daisuke • 31861 Tweets

ドラフト • 29586 Tweets

サクラコ • 22572 Tweets

ヴェノム • 20445 Tweets

ボボステ • 15218 Tweets

髙橋優斗 • 14812 Tweets

ドナルド • 13764 Tweets

メルトリリス • 13724 Tweets

Eşit • 12681 Tweets

#トキメキ旅 • 11977 Tweets

ブレイバーン • 11105 Tweets

DeAndre Hopkins • 10738 Tweets

自民衝撃の197議席 • 10014 Tweets

イッシュ

政権交代以来の大惨敗

メジャスピ

アンスポ

咲希ちゃん

リンセン

寧々バナー

トワイライトライト

中森明菜

カラモバ

羽生まゐごさん

猫耳ニーハイメイド

ヴェルディ

レオニ箱限

明菜ちゃん

Isran Kaltim SATU

ボイドラ

アライグマ

ルヴァン

みずいろリメイク

ナムラクレア

オリエンス

DHop

Lunin

グスタフソン

ア・バオア・クー

バトエン

石風呂さん

キャットラビング

#JUMPのいんすた

#مزاد_قلايد

Last Seen Profiles

@fclolii

@joonie3lover

@playboikhxoz

@icame5yrsl8r

@AV24org

@Bluesparrow222

@BJDieperinck

@kakomon_doujou

@tmuxvim

@TextBookCentre

@LizzieRFreeman

@shibu_ayan

@mertopasif

@_SouleyK

@FurkanSosyal16

@sukiharu_FN

@MekisServices

@annick_brice

@gdogaccountant2

@suzu_nagi_2525

Kohya Tech

@kohya_tech

1 year

LoRAの学習設定といえばこちらの記事が素晴らしく充実していて、私でも確認したいレベルですね……。

誰でもわかるStable Diffusion　Kohya_ssを使ったLoRA学習設定を徹底解説 - 人工知能と親しくなるブログ

前回の記事では、Stable Diffusionモデルを追加学習するためのWebUI環境「kohya_ss」の導入法について解説しました。今回は、LoRAのしくみを大まかに説明し、その後にkohya_ssを使ったLoRA学習設定について解説していきます。 ※今回の記事は非常に長いです！この記事では「各設定の意味」の…

hoshikat.hatenablog.com

1

171

793

Kohya Tech

@kohya_tech

2 years

ControlNetのCannyで要所だけ制御して着せ替えする例。生成した画像（1枚目の左）を例に、そこからCannyで処理（中央）、一部を手動で消去（1枚目右）。それを使ってプロンプトを変えつつ生成したのが2～4枚目。

0

154

551

Kohya Tech

@kohya_tech

2 years

生成したイラストからControlNetで線画っぽくしてみたけどわりといける。Cannyを抽出してControlNetで白色画像をimg2img。

6

84

424

Kohya Tech

@kohya_tech

1 year

ControlNet-LLLite、こういう雑な落書きで構図をなんとなく固定するのも、やりたかったことのひとつ(･∀･)　12.5%で適用。

0

81

395

Kohya Tech

@kohya_tech

2 years

Attention Couple+領域別LoRA、一応動くようになった。キャラ3LoRA+画風1LoRA。ControlNetも使える。ただ、LoRA数とサブプロンプト数は一致する必要がある、positiveとnegativeのトークン数を合わせる必要がある、バッチサイズ1しか動かない、と制約も多い(;･∀･)

4

88

335

Kohya Tech

@kohya_tech

11 months

Webカメラからのリアルタイム変換、4fpsまで上げられた。自前SDXLアニメモデルにSDXL Turbo LoRAと他のLoRAを適用、512*640の画像をimg2img strength=0.5の3stepsで変換。バッチ処理しているので2秒くらい遅延してます。これ以上strを上げるとアニメ絵になる代わりにポーズに追随しなくなる(;･∀･)

2

76

338

Kohya Tech

@kohya_tech

2 years

領域別LoRA適用、自前スクリプトでは意外に簡単に実装できた。ControlNetと組み合わせて実用的に動きそう。ただ問題はWeb UIへの実装……(;･∀･)　サンプル画像のモデルはACertainThing。

2

59

336

Kohya Tech

@kohya_tech

6 months

llama-cpp-pythonとgradioで、Command-R+をローカルで動かすための最低限のスクリプトを書きました。 24GB VRAMと64GB RAMでQ4モデルがギリギリ動くと思います。

llama-cpp-python と gradio で command-r-plus を動かす

llama-cpp-python と gradio で command-r-plus を動かす. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

5

83

333

Kohya Tech

@kohya_tech

1 year

Autiomatic1111 Web UI用ControlNet拡張がアップデートされ、SDXLの各種ControlNetに対応したようです。 LLLiteも含まれており、対応いただいたlllyasviel氏に深く感謝します。

[Major Update] sd-webui-controlnet 1.1.400 · Mikubill sd-webui-controlnet · Discussion #2039

The extension sd-webui-controlnet has added the supports for several control models from the community. Many of the new models are related to SDXL, with several models for Stable Diffusion 1.5. The...

github.com

2

100

303

Kohya Tech

@kohya_tech

1 year

光る眼鏡LoRAを公開しました。画像によって0.5~1.2くらいまでの間で調整してください。

2

76

275

Kohya Tech

@kohya_tech

11 months

昨日の、高解像度生成時に構図崩壊を防ぐ手法を詰めてみました。添付1枚目は2688x1536で通常生成した画像4つ、2枚目は適用して生成、同一seed。いずれもhighres fix適用なし。酒場と街は通常でもそこそこですが、適用したほうが安定してるのが分かると思います。

6

38

237

Kohya Tech

@kohya_tech

3 months

全自動で小説を書いてもらう件について記事にまとめました。「プロット作成→登場人物決定→キャラ設定→アウトライン作成→シーン分割→本文執筆」と分割して生成します。Gemma-2-9Bでの生成結果も添付しました。ローカルLLMに小説を書いてもらう v2 #note

ローカルLLMに小説を書いてもらう v2｜Kohya S.

はじめに以前、「ローカルLLMに小説を書いてもらう」という記事を投稿しました。この時はそれぞれ単独のプロンプトで小説家と編集者を演じさせましたが、今回はもうすこしシステマチックに、段階を踏んで小説を生成させてみます。プロンプトの検討等にはkgmkm氏のリポジトリや記事を参考にさせていただきました。この場を借りてお礼申し上げます。仕組みを相談するのにClaude (3.5 Sonnet...

note.com

1

72

240

Kohya Tech

@kohya_tech

2 years

ControlNetのTransfer Controlが何をやっているのかいまひとつわかりにくいので、図を作りました（層の数などかなり単純化してあります）。なおControlNetのauthorの方によるとTransfer Controlしない方が性能がいい場合もあるようです。

2

31

208

Kohya Tech

@kohya_tech

6 months

8GB VRAM（RTX 2070）、i7-9700K、メインRAM使用 24GB以下でローカルLLMを動かした様子です。Japanese-Starling-ChatV-7B-GGUF のQ8使用。後半は5倍速です。精度はともかく十分実用的な速度が出ますね。使用スクリプトはこちら：

2

57

200

Kohya Tech

@kohya_tech

2 years

思いついて同一seedの乱数をX軸でずらしながら画像生成してみた。なんとなくモチーフを保ちながら遷移していくのが面白い。

0

51

182

Kohya Tech

@kohya_tech

1 year

SDXLでコピー機学習法（差分抽出法）を試した結果を簡単にnoteにまとめました。 SDXLでコピー機学習法を試す｜Kohya S. @kohya_tech #note

SDXLでコピー機学習法を試す｜Kohya S.

はじめにコピー機学習法は、LoRAを教師画像と同様の画像しか出力されないレベルまで過学習し（コピー機と呼ばれる理由です）、そこから目的のLoRAを取り出す手法です。詳細は以下の月須和・那々氏の記事をご覧ください。今回、SDXLでコピー機学習法を試してみました。品質的にはいまひとつですが、一応成功はしましたので、設定等を共有します。学習にはsd-scriptsを利用しています。教師データ...

note.com

0

51

192

Kohya Tech

@kohya_tech

3 months

プロット作成→登場人物決定→キャラ設定→アウトライン作成→シーン分割→本文執筆、という流れでローカルLLMで全自動で小説を書いてもらえるようになった(･∀･)

0

48

188

Kohya Tech

@kohya_tech

1 year

ぼかした画像から画像生成するControlNet-LLLiteを再学習し、重みを上げました。timestep 500~1000で学習していますので、ComfyUIで推論する場合、前半のステップのみに適用してください。

3

30

182

Kohya Tech

@kohya_tech

2 years

LoRA等用のWeb UI拡張を更新しました。LoRAのConv2d-3x3拡張、dynamic rank (dim)、現バージョンのLoConサポート、領域別適用などを追加しました。実装に当たり参考にさせていただいたKohaku-BlueLeaf氏に感謝します。実験的機能のため不具合等あればご連絡ください。

GitHub - kohya-ss/sd-webui-additional-networks

Contribute to kohya-ss/sd-webui-additional-networks development by creating an account on GitHub.

github.com

2

42

159

Kohya Tech

@kohya_tech

1 year

とかなんとかやってるうちにStability AIからControl-LoRaが(;･∀･)

From the StableDiffusion community on Reddit: Stability releases "Control-LoRAs" (efficient...

Explore this post and more from the StableDiffusion community

www.reddit.com

2

29

154

Kohya Tech

@kohya_tech

1 year

線を細くするLoRA fineline-v1 を学習しました。重みを負にするとボケた感じになります。 LoRAを重ね掛けすると時々主線が太くなるのを補正したくて作りました。あまり効果は強くありませんがお試しいただけると幸いです。

1

36

154

Kohya Tech

@kohya_tech

2 years

LoRAによるControlNet、できた～(･∀･)　1枚目controlなし（i2iもなく普通に生成）、2枚目あり。公式のCanny EdgeのControlNetとSD1.5の差分をrank 128のLoRAとして抽出してACertaintyに適用、input_hint_blockとzero_convはそのまま使用。ただかなり効果が弱いので微妙……。

2

31

130

Kohya Tech

@kohya_tech

1 year

SDXLでattention coupleとregional LoRAが動くようになったので、fake scribbleのControlNet-LLLiteと組み合わせて立ち絵っぽいやつ。seed固定でプロンプトのみ変更。 ratios=0.2、multipliers=.5~.6くらいにしないと絵柄への影響が大きい。

1

30

133

Kohya Tech

@kohya_tech

21 days

FLUX.1 schnellの蒸留解除モデルのbetaが出てるみたい。学習方法の詳細が書いてないけど、どうやったんだろう。

ostris/OpenFLUX.1 · Hugging Face

huggingface.co

2

29

133

Kohya Tech

@kohya_tech

1 year

ComfyUIのノードを作るのにかなり時間が掛かりそうなので、学習済みモデルを公開しておきました。ソースコードはdevブランチにcommitし、ドキュメントも以下に簡単に書きました。

kohya-ss/controlnet-lllite · Hugging Face

huggingface.co

1

31

129

Kohya Tech

@kohya_tech

2 months

safetensorsの読み込み処理を自分で書いたら、LoRA抽出時のメモリ使用量が50GBから1GBくらいに減ったぜ(;･∀･)

5

16

129

Kohya Tech

@kohya_tech

1 year

常用漢字LoRAモノクロ版は以下に置きました。若干学習不足かも……。 "letter 亜 with sans"や"the letter ア by bold serif"などで生成できます。解像度は192x192です。

kohya-ss/misc-models at main

huggingface.co

1

35

122

Kohya Tech

@kohya_tech

1 year

ﾜｰついに動いた！

3

7

123

Kohya Tech

@kohya_tech

3 months

ComfyUIが自前のLoRAフォーマットを決めたらしい。みんな適当にLoRAを作るから嫌気がさしたんだろうな、と推測……(;･∀･)

Support for "Comfy" lora format. · comfyanonymous/ComfyUI@17030fd

The keys are just: model.full.model.key.name.lora_up.weight It is supported by all comfyui supported models. Now people can just convert loras to this format instead of having to ask for me to im...

github.com

0

39

123

Kohya Tech

@kohya_tech

8 months

ゼロによる領域指定、"Flexible Zero Slicing" と名付けておきます。┣みたいに分割するとこういう配置も可能。応用が利きそうだけど、自分でComfyUIなりWeb UIなりに実装する気力はないので、気が向いたら誰か実装してください(;･∀･)

0

24

116

Kohya Tech

@kohya_tech

1 year

いま使ってるマウスパッド、ふと気づくと画像生成AIっぽい柄だ(;･∀･)

6

10

113

Kohya Tech

@kohya_tech

2 years

先日、ControlNetのCannyで制御して着せ替えする例を上げましたが、同様に部分的に消去すればそこだけ入れ替えられます。

0

26

110

Kohya Tech

@kohya_tech

1 year

数日前から取り組んでいたSDXL用のControlNet-LLLiteがようやく形になりました。現状はCannyのみですがComfyUIで推論できます。お試しいただければ幸いです。

GitHub - kohya-ss/ControlNet-LLLite-ComfyUI

Contribute to kohya-ss/ControlNet-LLLite-ComfyUI development by creating an account on GitHub.

github.com

3

33

103

Kohya Tech

@kohya_tech

1 year

新しく学習したLLLiteで懐かしのi2iアニメ。

3

17

101

Kohya Tech

@kohya_tech

1 year

SDXL+キャラLoRA。ベースモデルをマージモデルに、CouterfeitXLのnegativeXL_Bを使用、プロンプトを工夫したらずいぶんよくなった。 #AIArt

2

17

103

Kohya Tech

@kohya_tech

21 days

FLUX.1 devの蒸留解除モデルもあるらしい。こっちは学習方法も書いてある（蒸留プロセスの逆）。batch size=32で6k stepsなので、思��たよりは短い印象。

nyanko7/flux-dev-de-distill · Hugging Face

huggingface.co

3

23

101

Kohya Tech

@kohya_tech

2 years

学習用スクリプトのリポジトリを更新しました。Lion optimizerが使えるようになりました。

GitHub - kohya-ss/sd-scripts

Contribute to kohya-ss/sd-scripts development by creating an account on GitHub.

github.com

4

17

92

Kohya Tech

@kohya_tech

1 year

オリジナルのU-Net実装できた～(･∀･)　とりあえずv2で生成まで確認。だいぶすっきりしたけどそれでも1,200行ある。original-u-netブランチに上げてあります。次の課題はDiffusersのpipelineから出てくるU-Netとの相互変換(;･∀･)

2

19

91

Kohya Tech

@kohya_tech

1 year

「窓から差し込む夕日」みたいなプロンプトで、こういう画像からstrength 0.8~0.98くらいでimg2imgすると、光の向きをある程度制御できるっぽい。

1

21

94

Kohya Tech

@kohya_tech

1 year

LoRAの学習で、品質が劣る学習データを使わざるを得ない場合、あえてキャプションに"blurry"とか付けて学習する、という手法があるらしい。

0

19

94

Kohya Tech

@kohya_tech

5 months

Command R+に小説家と編集者、一人二役やらせて小説を書いてもらった件、参考までに記事として公開しました。ローカルLLMに小説を書いてもらう｜Kohya S. @kohya_tech #note

ローカルLLMに小説を書いてもらう｜Kohya S.

はじめに n番煎じですが何かの参考になれば幸いです。「君に綴る手紙」～ Command R+に小説家と編集者を両方やってもらった Command R+のGGUF、Q4_K_Mを用います。laksjdjf氏のchatuiにモデル同士で対話させるsimulate機能がありますので、UIはそちらを利用しました（モデル状態を保存して高速化するため一部変更して利用しています）。チャットのuserとa...

note.com

1

28

95

Kohya Tech

@kohya_tech

1 year

おー、なんとかなるもんだな(;･∀･)

0

11

92

Kohya Tech

@kohya_tech

2 years

DiffusersベースでControlNetできた(･∀･)　同じseedでも結果は異なるけど、Web UI版とほぼ同じ品質な雰囲気。LoRAもimgimgも効く。

1

16

92

Kohya Tech

@kohya_tech

1 year

LoRA風追加ネットワークによるControlNet、だいぶいい感じになってきた。色の変化は、推論時にcondとuncondの両方にControlNetを適用することでかなり改善した。モデルサイズは今の設定でbf16で60MB。各種設定をもう少し詰め��みよう。

1

16

88

Kohya Tech

@kohya_tech

1 year

すごい、LoRAの可能性を感じる……！　 SD2系なので、WD15beta2にAes+画風+キャラのLoRAを組み合わて適用してみた。1.2くらいまでウエイトを上げると良さそう。

1

22

89

Kohya Tech

@kohya_tech

1 year

SDXLモデル用になんとなく良くなるnegative embeddings (TI)を学習しました。添付画像はsdxl baseの生成で、左からnegative prompt（以降NPと略）なし、よくあるNP、NP+TI（中央あたりに配置）、NP+TI（NP先頭に配置）です。

1

22

90

Kohya Tech

@kohya_tech

5 months

SDXL学習時のメモリ使用量を大きく削減するfused optimizerの機能をdevブランチにマージしました。簡単に使用��を書きましたのでよろしければお試しください。

0

34

87

Kohya Tech

@kohya_tech

4 months

ライセンス上の懸念から、SD3関連モデルがCivitaiから一時取り下げ、らしい……。

2

25

88

Kohya Tech

@kohya_tech

7 months

LLMに変なスレ書かせるの楽しいな……。 command-r-v01使用。スレタイに【質問厳禁】と書かないと長文で質問する奴が出てくる……(;･∀･)

1

24

88

Kohya Tech

@kohya_tech

2 months

Claude 3.5 Sonnetにマンションポエムを書いてもらう→翻訳→FLUX.1 devで生成。壺がいい味出してる……(;･∀･)　 #AIArt

1

15

88

Kohya Tech

@kohya_tech

2 months

FLUX.1のLoRA、一応学習ができているようです。AI Toolkitの開発者の方に感謝です。1、3枚目は適用なし、2、4枚目は適用率2で適用。 --timestep_sampling sigmoid --model_prediction_type raw --guidance_scale 1.0で学習。川瀬巴水の169画像を使用、学習率1e-3、batchsize 1、4 ecpoch。4090で約40分

1

19

86

Kohya Tech

@kohya_tech

2 years

LoRA等用のWeb UI拡張を更新しました。U-NetとText Encoderに独立して重みを指定できるようになりました。また複数のLoRAモデルフォルダに対応しました。（カンマが入っていると分割されてしまうためお手数ですがカンマを含まないようリネームをお願いします。）

GitHub - kohya-ss/sd-webui-additional-networks

Contribute to kohya-ss/sd-webui-additional-networks development by creating an account on GitHub.

github.com

0

23

84

Kohya Tech

@kohya_tech

4 months

SD3の学習、一応書けた。とりあえず保存したSD3のcheckpointが壊れて��いことが確認できたので30分くらい学習してみる。 t5xxlが大きすぎるので、とりあえずlatentsと、Text Encoderのembeddingsはキャッシュ必須にした。今のところAdaFactor、mixed precision、bs=1で18GB VRAMくらい。

1

20

85

Kohya Tech

@kohya_tech

2 years

どこに需要があるかわかりませんが黄色いスライムLoRAを公開しました。

kohya-ss/blob-emoji-lora · Hugging Face

huggingface.co

2

25

81

Kohya Tech

@kohya_tech

2 years

先日RTしたIlluminati Diffusionのv1.0が公開されました。SDベースでもここまで行けるんだ、というのは驚きです(*‘∀‘)　またv2ベースで高解像度に強く768x768や1024x1024でも破綻なく生成されるようです。Textual Inversionのembedsと組み合わせる前提なのも面白いですね

0

26

81

Kohya Tech

@kohya_tech

1 year

ようやくSDXL用のtextual inversion学習ができました。川瀬巴水の絵画で学習、1、2枚目がembedあり、3、4枚目はなし。 sdxlブランチにcommit済みです。学習に癖があるのでreadmeをお読みください。

3

23

80

Kohya Tech

@kohya_tech

4 months

Command-R+で複数キャラに対話させる場合、同じような発言が続いたり他のキャラの記憶が移ったりするのを避けたいんだけど、他キャラの発言を個別のuser promptにするパターン4が一番良いみたい。実際にはあり得ないパターンなんだが(;･∀･)

0

14

80

Kohya Tech

@kohya_tech

1 year

SDXLを作業のかたわら6時間くらい学習した自前のモデルが、CounterfeitXLのnegative embeddingsを使ったら改善された(;･∀･)　すごい。 1枚目と2枚目はTIなし、3、4枚目があり。

0

10

81

Kohya Tech

@kohya_tech

1 year

ControlNet-LLLiteの重みに、制御用画像を再現するreplicate animeを追加しました。モデルとプロンプトに従いつつできるだけ再現します。img2imgでも使用できます。画像と矛盾するようなプロンプトを使うと画像が乱れるようですのでご注意ください。

kohya-ss/controlnet-lllite · Hugging Face

huggingface.co

0

19

80

Kohya Tech

@kohya_tech

11 months

MagicAnimateの論文をざっくり読んだ。フレーム間の一貫性はU-Netを3Dに拡張してTemporal Attentionを追加。外見と背景は、U-NetのコピーであるAppearance Encoderを学習して3D U-Netのconditioningに渡す。PoseはControlNet。推論時に複数の推論結果をaverageして一貫性を向上させる。という感じか。

1

13

80

Kohya Tech

@kohya_tech

2 years

学習用スクリプトのリポジトリを更新し、LoRAのConv2d-3x3拡張に対応しました。Conv2d拡張の有効性を見出したKohaku-BlueLeaf氏に感謝します。またドキュメント類を更新しています。

GitHub - kohya-ss/sd-scripts

Contribute to kohya-ss/sd-scripts development by creating an account on GitHub.

github.com

0

22

79

Kohya Tech

@kohya_tech

2 months

FLUX.1 devのLoRA、optimizerにAdafactorを使うことで16GB VRAMで学習できるようです。 relative_step=Trueでは学習できませんでしたので、「--optimizer_args "relative_step=False" "scale_parameter=False" "warmup_init=False"」のようにしていただくと良さそうです。

1

15

78

Kohya Tech

@kohya_tech

11 months

Animate AnyoneでもMagicAnimateでも、��見の一貫性の確保、ポーズ等の伝達、フレーム間での一貫性の確保、という三つの構造は同じ。外見はLoRA、ポーズ等は ControlNetを使えば、あとはフレーム間のところだけ軽量な何かを考案すれば、コミュニティでの学習も可能になるかもしれない。

3

11

78

Kohya Tech

@kohya_tech

1 year

SDXLのLoRA学習、Text Encoderの出力をキャッシュすればVRAM 12GBでbatch size 1、rank (dim) 128のC3Lier(LoCon)まで行けそう（rankが低いとわりと余裕がある）。キャッシュしないと16GB必要みたい。

2

12

77

Kohya Tech

@kohya_tech

1 year

学習用スクリプトのリポジトリを更新しました。SD1/2、SDXLの学習でText EncoderにU-Netと異なる学習率を指定する機能の追加、Debiased Estimation lossの追加、その他の機能追加や修正などを行いました。

GitHub - kohya-ss/sd-scripts

Contribute to kohya-ss/sd-scripts development by creating an account on GitHub.

github.com

2

19

76

Kohya Tech

@kohya_tech

2 years

WD15 beta2 Aesthetic+画風LoRA+キャラLoRA+本屋背景LoRA。 furusu氏のWD15beta2用CannyのControlNetを使いたかったけど背景への効きが弱かったので、背景とキャラで別々に生成した画像を手作業で合成して、LoRA領域指定でimg2imgした。総生成枚数1,200枚(;･∀･)

0

8

76

Kohya Tech

@kohya_tech

1 year

これは個人的な感想だけど、モデル流出した人間が悪いのは大前提として、NovelAIにもこのgdgdの責任の一端はある気がするので、リークモデルの扱いについて、「使用不可、厳正に対処する」「自由に使ってよい」「商用利用は不可」とかいま一度見解を明らかにしても罰は当たらないんじゃないかな

3

14

74

Kohya Tech

@kohya_tech

8 months

RTX A6000届いた(･∀･)　バルクだけどPCIe 8pin->CPU 8pinの電源変換ケーブルは付いてた。

4

8

76

Kohya Tech

@kohya_tech

1 year

SDXLベースのアニメモデル9個を等分にマージしたらわりといい感じだ(;･∀･)

2

11

71

Kohya Tech

@kohya_tech

1 month

FLUX.1 devのピンボケ改善、個人的に一番効果があったのはステップ数を増やすこと……。身も蓋もないけど(;･∀･)　 20だとぼやけるプロンプトでも、50ならぱっきり。

3

11

73

Kohya Tech

@kohya_tech

8 months

noteに記事を書いてから一年半の時を経て、とうとうbitsandbytesがWindowsでのpip installを公式サポートしたらしい。

Release 0.43.0: FSDP support, Official documentation, Cross-compilation on Linux and CI, Windows...

Improvements and New Features: QLoRA + FSDP official support is now live! #970 by @warner-benjamin and team - with FSDP you can train very large models (70b scale) on multiple 24GB consumer-type G...

github.com

2

21

72

Kohya Tech

@kohya_tech

2 years

Mikubill氏のControlNetのWeb UI拡張で使える、transfer control用の差分ファイルを上げました。

kohya-ss/ControlNet-diff-modules at main

huggingface.co

0

20

71

Kohya Tech

@kohya_tech

5 months

SDXLのControlNet、学習済みモデルに今までわりと微妙なのが多くて、（skip connectionが少ないとか）アーキテクチャのせいかと思ってたんだけど（だからLLLiteとか作ってた）、上手く使えばきちんと動作するのがわかって衝撃的……。

1

10

70

Kohya Tech

@kohya_tech

1 month

ComfyUIのLoRA実装が更新されて、sd-scriptsで学習したT5XXLのLoRAが効かなくなってるっぽい(;･∀･)　せっかく実装に合わせておいたのに……。どうするかな……。

ComfyUI/comfy/lora.py at master · comfyanonymous/ComfyUI

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - comfyanonymous/ComfyUI

github.com

2

7

70

Kohya Tech

@kohya_tech

2 months

オリキャラちゃんLoRAをFLUX.1 devで80 images, batch size=1, 4 epoch=320 stepで学習してみたけど、普通に学習できるな。設定は前と同じ。適用率はやっぱり2.0以上が必要。

1

6

68

Kohya Tech

@kohya_tech

2 years

画風LoRA作る→モデルにマージする→そのモデルでキャラLoRA作る、とするとキャラの特徴だけ抽出できる……気がする。あと両者は強度わりと強めで同時利用できるようになる。

1

12

66

Kohya Tech

@kohya_tech

9 days

Meissonic、1BでSDXLに匹敵するらしい。non-autoregressive masked image modeling (MIM)はよくわからないけどモデル構造はFLUX.1に似てる。Text EncoderはCLIP-Hみたい。ライセンスはASL 2.0。

MeissonFlow/Meissonic · Hugging Face

huggingface.co

1

25

129

Kohya Tech

@kohya_tech

1 year

学習用スクリプトのリポジトリを更新しました。LoRA学習時のmax norm regularizationおよび各種のdropoutを追加しました。またv-pred lossをnoise predと同様にスケールするオプションを各スクリプトに追加しました。

GitHub - kohya-ss/sd-scripts

Contribute to kohya-ss/sd-scripts development by creating an account on GitHub.

github.com

0

21

65

Kohya Tech

@kohya_tech

2 years

Web UIがsd-scriptsの0.4.0で学習したLoRAに対応したようです。素早い対応に感謝です。実は1111氏から直接質問されて答えました(;･∀･)

LoRA weight underflows · Issue #49 · kohya-ss/sd-webui-additional-networks

I encountered the same problem as #41, which states "LoRAs have no effects". Background I'm using SSDT to train LoRAs, the LoRA layers implementations are from loralib, which have wei...

github.com

1

22

65

Kohya Tech

@kohya_tech

7 months

LLMの試し方、Zuntan03氏のEasyLightChatAssistantの説明を見てたらなんとなくわかってきた気がする。

GitHub - Zuntan03/EasyLightChatAssistant: EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChat...

EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChatAssistant を、KoboldCpp で簡単にお試しする環境です。 - Zuntan03/EasyLightChatAssistant

github.com

1

9

66

Kohya Tech

@kohya_tech

2 months

sd3ブランチのFLUX.1向けLoRA学習機能を更新し、いくつかのオプションを追加しました。READMEに書いてある設定で学習結果がある程度改善されるようです。より良い設定があればご共有ください。よろしくお願いいたします。

1

16

64

Kohya Tech

@kohya_tech

3 months

遅ればせながらFLUXの自前スクリプトでの推論できた。先が長い(;･∀･)

2

3

64

Kohya Tech

@kohya_tech

8 months

SDの位置情報がpaddingで与えられてる説、��証して��た。Conv2dを1枚目のように書き換えて、U-Netの深いところ(depth=4)、最初の方(t>700)だけ分割した。 Animagine XL 3でAttention Coupleを用いて三分割してプロンプトでキャラ指定すると、ちゃんと各領域が分割された。2枚目上段分割なし、下段あり

0

20

64

Kohya Tech

@kohya_tech

2 months

参考用にFLUX.1 devの川瀬巴水LoRAを上げました。ComfyUIで使えるはずです。適用率2.0程度を指定してください。

kohya-ss/misc-models · Hugging Face

huggingface.co

1

10

64

Kohya Tech

@kohya_tech

1 year

ControlNet-LLLiteのアニメ絵向けposeモデルの試験的重みをHugging Faceに上げました。サンプルはのちほど追加します。

0

12

63

Kohya Tech

@kohya_tech

1 year

ちょっとまだコードを更新する気力がないので適当なLoRAを作っていた。適用するとひび割れた感じになるLoRA。SD1.5で作成、生成例はACertainThingに適用。

0

14

63

Kohya Tech

@kohya_tech

6 months

自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型3モデル）｜Kohya S. さんまとめました。三万字近くあります(;･∀･)　 @kohya_tech #note

自作小説をLLMにレビューさせてみる（ローカル4モデル、サービス型4モデル）｜Kohya S.

24-5-14: ChatGPT 4o追加 24-4-29: Qwen1.5-110B-Chat-gguf Q4-K-M 追加（結果のみ） 24-4-18: Command-R+ (cohere playground) 追加（結果のみ）簡単なまとめ見返したらあまりにも長くて読みづらかったので、Opusの力も借りて、要約を追記しておきます。【ローカルLLM】 LightChatAssis...

note.com

0

23

64

Kohya Tech

@kohya_tech

2 years

githubリポジトリのDreamBoothスクリプトの解説記事を書きました（前のバージョンからの機能追加は今のところありません）。よろしくお願いいたします。

DiffusersベースのDreamBoothについて｜Kohya S.

はじめに Stable DiffusionのDreamBoothについて、以前の記事では記事にスクリプトを添付していましたが、新たにgithubのリポジトリを作成しました。そちらを用いた学習について解説する記事です。リポジトリはこちらです。スクリプトの主な機能は以下の通りです。 8bit Adam optimizerおよびlatentのキャッシュによる省メモリ化（ShivamShrira...

note.com

0

20

61

Kohya Tech

@kohya_tech

11 months

アイデアは極めて単純で、「構図を決めるのはノイズに近いtimesteps」「構図を決めるのはU-Netの深い部分」らしいことが分かっていますので、その部分のlatentsを縮小してあげるだけです。 sd-scriptsの生成スクリプトで実現する差分を置きました。

SDXLで高解像度での構図の破綻を軽減する

SDXLで高解像度での構図の破綻を軽減する. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

3

14

60

Kohya Tech

@kohya_tech

8 months

Stable Cascade、自前スクリプトで推論できた。といってもgdfから先はそのままだけど。必要なVRAMは、簡単なVRAM消費削減を入れて、1024x1024、bf16で8GBちょっと。

0

15

63

Kohya Tech

@kohya_tech

2 years

ControlNetのtransfer control、若干効果ありそう。1枚目はACertaintyにSD15のControlNetをそのまま適用、2枚目はACertainityにtransfer controlして適用。少し線がシャープに。 pull requestを作って出すか、と思ったら作業中みたいだ。どうするかな。

1

16

61

Kohya Tech

@kohya_tech

17 days

sd3ブランチで、FLUX.1のLoRA学習、fine tuning時にschnellモデルを正しく判定するようになりました。これによりschnellモデルも学習可能ですが、学習結果は未検証です。またDiffusers形式のファイルを直接読み込めるようになりました。

0

17

62

Kohya Tech

@kohya_tech

2 years

Attention Couple+領域別LoRA、領域の境を64で割り切れる値にするときれいに分かれる（この例では960x640を320x640で三分割）。ただし二人しか出なかったり近づきすぎたりすると混ざるのでControlNetなしだと回数が必要。

0

10

60

Kohya Tech

@kohya_tech

2 months

FLUX.1 fine tuning結果。1枚目学習なし、2枚目学習後。学習率5e-5、Adafactorでbatch size=1、川瀬巴水の画像169枚*4epoch=676 steps。4090で1時間30分くらい。

0

10

60

Kohya Tech

@kohya_tech

2 years

DyLoRAも実装した。DyLoRAは指定したrank以下の任意rankのLoRAを抽出できるらしい。dim(rank)=16で学習して、それぞれ4、8、12、16で抽出したLoRAの生成結果。実装を見ながら適当に再現実装したけど、scaleするとおかしくなるし何か間違ってる気もする……(;･∀･)

3

6

57

Kohya Tech

@kohya_tech

5 months

LLMでの仮想配信、7BクラスだとNinja-v1-RP-expressiveがかなり自然。TTSも繋げてみた。量子化によるけど12~GB VRAMで動くはず。 ※音が出ます。音声はStyle-BertVITS2使用。モデル: あみたろ＆小春音アミ、あみたろの声素材工房 () とJVNVコーパス jvnv-F2-jp。

0

18

60

Kohya Tech

@kohya_tech

2 years

学習用スクリプトのリポジトリを更新しました。D-Adaptation、AdaFactor等のオプティマイザが使えるようになりました。不具合等ありましたらご連絡ください。

GitHub - kohya-ss/sd-scripts

Contribute to kohya-ss/sd-scripts development by creating an account on GitHub.

github.com

1

16

56

Kohya Tech

@kohya_tech

2 years

ブロック別プロンプトについて記事にまとめました。Web UIで動くようにしましたのでどうぞお試しください。正直使い物になるのか見当もつきません……。 Stable DiffusionのU-Netでブロックごとに異なるプロンプトを与えて画像生成する（ブロック別プロンプト） #note

Stable DiffusionのU-Netでブロックごとに異なるプロンプトを与えて画像生成する（ブロック別プロンプト）｜Kohya S.

はじめに ※1/10追記：コメントでご指摘いただきましたが、キャプションが有効（CrossAttentionが存在する）なのはblock 1, 2, 4, 5, 7, 8, 12, 16 ~ 24です。他のblockのキャプションは無視されます。確認が足らず失礼いたしました。ご指摘いただいたgcem156氏に感謝します。 U-Netの構造については以前の記事に書きました。 U-NetはText...

note.com

1

23

59

Kohya Tech

@kohya_tech

1 year

LoRA学習時のDropoutの効果比較。過学習が抑えられている感じがする。dim=32,conv_dim=16,alphaは両方とも1。プロンプトに"upper body"を含む。WD15Beta3ベースで差分追加学習法で学習。引数は「--network_dropout 0.1 --network_args "rank_dropout=.25" "module_dropout=.05"」

1

12

58

Kohya Tech

@kohya_tech

9 months

ANIMAGINE XL V3のDeep Shrink設定、良さそうなのは「ts 750/depth 3, ts 550/depth 4」あたりかな……。 1枚目設定なし 1344x768、2枚目 0.75 1792x1024、3枚目 0.5 2688x1536

1

10

55