Kohya Tech Profile Banner
Kohya Tech Profile
Kohya Tech

@kohya_tech

Followers
5,472
Following
41
Media
422
Statuses
6,308

機械学習、プログラム、電子工作などの話題のアカウントです。 sd-scripts

日本
Joined December 2022
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
@kohya_tech
Kohya Tech
2 years
ControlNetのCannyで要所だけ制御して着せ替えする例。生成した画像(1枚目の左)を例に、そこからCannyで処理(中央)、一部を手動で消去(1枚目右)。それを使ってプロンプトを変えつつ生成したのが2~4枚目。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
154
551
@kohya_tech
Kohya Tech
2 years
生成したイラストからControlNetで線画っぽくしてみたけどわりといける。Cannyを抽出してControlNetで白色画像をimg2img。
Tweet media one
Tweet media two
6
84
424
@kohya_tech
Kohya Tech
1 year
ControlNet-LLLite、こういう雑な落書きで構図をなんとなく固定するのも、やりたかったことのひとつ(・∀・) 12.5%で適用。
Tweet media one
Tweet media two
Tweet media three
0
81
395
@kohya_tech
Kohya Tech
2 years
Attention Couple+領域別LoRA、一応動くようになった。キャラ3LoRA+画風1LoRA。ControlNetも使える。 ただ、LoRA数とサブプロンプト数は一致する必要がある、positiveとnegativeのトークン数を合わせる必要がある、バッチサイズ1しか動かない、と制約も多い(;・∀・)
Tweet media one
Tweet media two
Tweet media three
Tweet media four
4
88
335
@kohya_tech
Kohya Tech
11 months
Webカメラからのリアルタイム変換、4fpsまで上げられた。 自前SDXLアニメモデルにSDXL Turbo LoRAと他のLoRAを適用、512*640の画像をimg2img strength=0.5の3stepsで変換。バッチ処理しているので2秒くらい遅延してます。 これ以上strを上げるとアニメ絵になる代わりにポーズに追随しなくなる(;・∀・)
2
76
338
@kohya_tech
Kohya Tech
2 years
領域別LoRA適用、自前スクリプトでは意外に簡単に実装できた。ControlNetと組み合わせて実用的に動きそう。ただ問題はWeb UIへの実装……(;・∀・)  サンプル画像のモデルはACertainThing。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
2
59
336
@kohya_tech
Kohya Tech
6 months
llama-cpp-pythonとgradioで、Command-R+をローカルで動かすための最低限のスクリプトを書きました。 24GB VRAMと64GB RAMでQ4モデルがギリギリ動くと思います。
5
83
333
@kohya_tech
Kohya Tech
1 year
Autiomatic1111 Web UI用ControlNet拡張がアップデートされ、SDXLの各種ControlNetに対応したようです。 LLLiteも含まれており、対応いただいたlllyasviel氏に深く感謝します。
2
100
303
@kohya_tech
Kohya Tech
1 year
光る眼鏡LoRAを公開しました。画像によって0.5~1.2くらいまでの間で調整してください。
Tweet media one
2
76
275
@kohya_tech
Kohya Tech
11 months
昨日の、高解像度生成時に構図崩壊を防ぐ手法を詰めてみました。添付1枚目は2688x1536で通常生成した画像4つ、2枚目は適用して生成、同一seed。いずれもhighres fix適用なし。 酒場と街は通常でもそこそこですが、適用したほうが安定してるのが分かると思います。
Tweet media one
Tweet media two
6
38
237
@kohya_tech
Kohya Tech
2 years
ControlNetのTransfer Controlが何をやっているのかいまひとつわかりにくいので、図を作りました(層の数などかなり単純化してあります)。 なおControlNetのauthorの方によるとTransfer Controlしない方が性能がいい場合もあるようです。
Tweet media one
2
31
208
@kohya_tech
Kohya Tech
6 months
8GB VRAM(RTX 2070)、i7-9700K、メインRAM使用 24GB以下でローカルLLMを動かした様子です。Japanese-Starling-ChatV-7B-GGUF のQ8使用。後半は5倍速です。精度はともかく十分実用的な速度が出ますね。使用スクリプトはこちら:
2
57
200
@kohya_tech
Kohya Tech
2 years
思いついて同一seedの乱数をX軸でずらしながら画像生成してみた。なんとなくモチーフを保ちながら遷移していくのが面白い。
0
51
182
@kohya_tech
Kohya Tech
3 months
プロット作成→登場人物決定→キャラ設定→アウトライン作成→シーン分割→本文執筆、という流れでローカルLLMで全自動で小説を書いてもらえるようになった(・∀・)
Tweet media one
Tweet media two
0
48
188
@kohya_tech
Kohya Tech
1 year
ぼかした画像から画像生成するControlNet-LLLiteを再学習し、重みを上げました。timestep 500~1000で学習していますので、ComfyUIで推論する場合、前半のステップのみに適用してください。
Tweet media one
Tweet media two
3
30
182
@kohya_tech
Kohya Tech
2 years
LoRA等用のWeb UI拡張を更新しました。LoRAのConv2d-3x3拡張、dynamic rank (dim)、現バージョンのLoConサポート、領域別適用などを追加しました。実装に当たり参考にさせていただいたKohaku-BlueLeaf氏に感謝します。 実験的機能のため不具合等あればご連絡ください。
2
42
159
@kohya_tech
Kohya Tech
1 year
線を細くするLoRA fineline-v1 を学習しました。重みを負にするとボケた感じになります。 LoRAを重ね掛けすると時々主線が太くなるのを補正したくて作りました。あまり効果は強くありませんがお試しいただけると幸いです。
Tweet media one
1
36
154
@kohya_tech
Kohya Tech
2 years
LoRAによるControlNet、できた~(・∀・) 1枚目controlなし(i2iもなく普通に生成)、2枚目あり。 公式のCanny EdgeのControlNetとSD1.5の差分をrank 128のLoRAとして抽出してACertaintyに適用、input_hint_blockとzero_convはそのまま使用。 ただかなり効果が弱いので微妙……。
Tweet media one
Tweet media two
2
31
130
@kohya_tech
Kohya Tech
1 year
SDXLでattention coupleとregional LoRAが動くようになったので、fake scribbleのControlNet-LLLiteと組み合わせて立ち絵っぽいやつ。seed固定でプロンプトのみ変更。 ratios=0.2、multipliers=.5~.6くらいにしないと絵柄への影響が大きい。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
30
133
@kohya_tech
Kohya Tech
21 days
FLUX.1 schnellの蒸留解除モデルのbetaが出てるみたい。学習方法の詳細が書いてないけど、どうやったんだろう。
2
29
133
@kohya_tech
Kohya Tech
1 year
ComfyUIのノードを作るのにかなり時間が掛かりそうなので、学習済みモデルを公開しておきました。 ソースコードはdevブランチにcommitし、ドキュメントも以下に簡単に書きました。
1
31
129
@kohya_tech
Kohya Tech
2 months
safetensorsの読み込み処理を自分で書いたら、LoRA抽出時のメモリ使用量が50GBから1GBくらいに減ったぜ(;・∀・)
5
16
129
@kohya_tech
Kohya Tech
1 year
常用漢字LoRAモノクロ版は以下に置きました。若干学習不足かも……。 "letter 亜 with sans"や"the letter ア by bold serif"などで生成できます。解像度は192x192です。
1
35
122
@kohya_tech
Kohya Tech
1 year
ワーついに動いた!
Tweet media one
3
7
123
@kohya_tech
Kohya Tech
8 months
ゼロによる領域指定、"Flexible Zero Slicing" と名付けておきます。┣みたいに分割するとこういう配置も可能。 応用が利きそうだけど、自分でComfyUIなりWeb UIなりに実装する気力はないので、気が向いたら誰か実装してください(;・∀・)
Tweet media one
0
24
116
@kohya_tech
Kohya Tech
1 year
いま使ってるマウスパッド、ふと気づくと画像生成AIっぽい柄だ(;・∀・)
Tweet media one
6
10
113
@kohya_tech
Kohya Tech
2 years
先日、ControlNetのCannyで制御して着せ替えする例を上げましたが、同様に部分的に消去すればそこだけ入れ替えられます。
Tweet media one
Tweet media two
0
26
110
@kohya_tech
Kohya Tech
1 year
数日前から取り組んでいたSDXL用のControlNet-LLLiteがようやく形になりました。現状はCannyのみですがComfyUIで推論できます。お試しいただければ幸いです。
3
33
103
@kohya_tech
Kohya Tech
1 year
新しく学習したLLLiteで懐かしのi2iアニメ。
3
17
101
@kohya_tech
Kohya Tech
1 year
SDXL+キャラLoRA。 ベースモデルをマージモデルに、CouterfeitXLのnegativeXL_Bを使用、プロンプトを工夫したらずいぶんよくなった。 #AIArt
Tweet media one
2
17
103
@kohya_tech
Kohya Tech
21 days
FLUX.1 devの蒸留解除モデルもあるらしい。こっちは学習方法も書いてある(蒸留プロセスの逆)。batch size=32で6k stepsなので、思���たよりは短い印象。
3
23
101
@kohya_tech
Kohya Tech
2 years
学習用スクリプトのリポジトリを更新しました。Lion optimizerが使えるようになりました。
4
17
92
@kohya_tech
Kohya Tech
1 year
オリジナルのU-Net実装できた~(・∀・)  とりあえずv2で生成まで確認。だいぶすっきりしたけどそれでも1,200行ある。original-u-netブランチに上げてあります。 次の課題はDiffusersのpipelineから出てくるU-Netとの相互変換(;・∀・)
Tweet media one
2
19
91
@kohya_tech
Kohya Tech
1 year
「窓から差し込む夕日」みたいなプロンプトで、こういう画像からstrength 0.8~0.98くらいでimg2imgすると、光の向きをある程度制御できるっぽい。
Tweet media one
1
21
94
@kohya_tech
Kohya Tech
1 year
LoRAの学習で、品質が劣る学習データを使わざるを得ない場合、あえてキャプションに"blurry"とか付けて学習する、という手法があるらしい。
0
19
94
@kohya_tech
Kohya Tech
1 year
おー、なんとかなるもんだな(;・∀・)
Tweet media one
Tweet media two
0
11
92
@kohya_tech
Kohya Tech
2 years
DiffusersベースでControlNetできた(・∀・)  同じseedでも結果は異なるけど、Web UI版とほぼ同じ品質な雰囲気。LoRAもimgimgも効く。
Tweet media one
Tweet media two
1
16
92
@kohya_tech
Kohya Tech
1 year
LoRA風追加ネットワークによるControlNet、だいぶいい感じになってきた。色の変化は、推論時にcondとuncondの両方にControlNetを適用することでかなり改善した。モデルサイズは今の設定でbf16で60MB。 各種設定をもう少し詰め���みよう。
Tweet media one
Tweet media two
Tweet media three
1
16
88
@kohya_tech
Kohya Tech
1 year
すごい、LoRAの可能性を感じる……!  SD2系なので、WD15beta2にAes+画風+キャラのLoRAを組み合わて適用してみた。1.2くらいまでウエイトを上げると良さそう。
Tweet media one
Tweet media two
1
22
89
@kohya_tech
Kohya Tech
1 year
SDXLモデル用になんとなく良くなるnegative embeddings (TI)を学習しました。 添付画像はsdxl baseの生成で、左からnegative prompt(以降NPと略)なし、よくあるNP、NP+TI(中央あたりに配置)、NP+TI(NP先頭に配置)です。
Tweet media one
1
22
90
@kohya_tech
Kohya Tech
5 months
SDXL学習時のメモリ使用量を大きく削減するfused optimizerの機能をdevブランチにマージしました。簡単に使用���を書きましたのでよろしければお試しください。
0
34
87
@kohya_tech
Kohya Tech
4 months
ライセンス上の懸念から、SD3関連モデルがCivitaiから一時取り下げ、らしい……。
2
25
88
@kohya_tech
Kohya Tech
7 months
LLMに変なスレ書かせるの楽しいな……。 command-r-v01使用。 スレタイに【質問厳禁】と書かないと長文で質問する奴が出てくる……(;・∀・)
Tweet media one
Tweet media two
1
24
88
@kohya_tech
Kohya Tech
2 months
Claude 3.5 Sonnetにマンションポエムを書いてもらう→翻訳→FLUX.1 devで生成。 壺がいい味出してる……(;・∀・)  #AIArt
Tweet media one
1
15
88
@kohya_tech
Kohya Tech
2 months
FLUX.1のLoRA、一応学習ができているようです。AI Toolkitの開発者の方に感謝です。1、3枚目は適用なし、2、4枚目は適用率2で適用。 --timestep_sampling sigmoid --model_prediction_type raw --guidance_scale 1.0で学習。川瀬巴水の169画像を使用、学習率1e-3、batchsize 1、4 ecpoch。4090で約40分
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
19
86
@kohya_tech
Kohya Tech
2 years
LoRA等用のWeb UI拡張を更新しました。U-NetとText Encoderに独立して重みを指定できるようになりました。また複数のLoRAモデルフォルダに対応しました。 (カンマが入っていると分割されてしまうためお手数ですがカンマを含まないようリネームをお願いします。)
0
23
84
@kohya_tech
Kohya Tech
4 months
SD3の学習、一応書けた。とりあえず保存したSD3のcheckpointが壊れて��いことが確認できたので30分くらい学習してみる。 t5xxlが大きすぎるので、とりあえずlatentsと、Text Encoderのembeddingsはキャッシュ必須にした。今のところAdaFactor、mixed precision、bs=1で18GB VRAMくらい。
1
20
85
@kohya_tech
Kohya Tech
2 years
どこに需要があるかわかりませんが黄色いスライムLoRAを公開しました。
2
25
81
@kohya_tech
Kohya Tech
2 years
先日RTしたIlluminati Diffusionのv1.0が公開されました。SDベースでもここまで行けるんだ、というのは驚きです(*‘∀‘)  またv2ベースで高解像度に強く768x768や1024x1024でも破綻なく生成されるようです。Textual Inversionのembedsと組み合わせる前提なのも面白いですね
0
26
81
@kohya_tech
Kohya Tech
1 year
ようやくSDXL用のtextual inversion学習ができました。川瀬巴水の絵画で学習、1、2枚目がembedあり、3、4枚目はなし。 sdxlブランチにcommit済みです。学習に癖があるのでreadmeをお読みください。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
3
23
80
@kohya_tech
Kohya Tech
4 months
Command-R+で複数キャラに対話させる場合、同じような発言が続いたり他のキャラの記憶が移ったりするのを避けたいんだけど、他キャラの発言を個別のuser promptにするパターン4が一番良いみたい。実際にはあり得ないパターンなんだが(;・∀・)
Tweet media one
0
14
80
@kohya_tech
Kohya Tech
1 year
SDXLを作業のかたわら6時間くらい学習した自前のモデルが、CounterfeitXLのnegative embeddingsを使ったら改善された(;・∀・) すごい。 1枚目と2枚目はTIなし、3、4枚目があり。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
10
81
@kohya_tech
Kohya Tech
1 year
ControlNet-LLLiteの重みに、制御用画像を再現するreplicate animeを追加しました。モデルとプロンプトに従いつつできるだけ再現します。img2imgでも使用できます。 画像と矛盾するようなプロンプトを使うと画像が乱れるようですのでご注意ください。
0
19
80
@kohya_tech
Kohya Tech
11 months
MagicAnimateの論文をざっくり読んだ。フレーム間の一貫性はU-Netを3Dに拡張してTemporal Attentionを追加。外見と背景は、U-NetのコピーであるAppearance Encoderを学習して3D U-Netのconditioningに渡す。PoseはControlNet。推論時に複数の推論結果をaverageして一貫性を向上させる。という感じか。
1
13
80
@kohya_tech
Kohya Tech
2 years
学習用スクリプトのリポジトリを更新し、LoRAのConv2d-3x3拡張に対応しました。Conv2d拡張の有効性を見出したKohaku-BlueLeaf氏に感謝します。 またドキュメント類を更新しています。
0
22
79
@kohya_tech
Kohya Tech
2 months
FLUX.1 devのLoRA、optimizerにAdafactorを使うことで16GB VRAMで学習できるようです。 relative_step=Trueでは学習できませんでしたので、「--optimizer_args "relative_step=False" "scale_parameter=False" "warmup_init=False"」のようにしていただくと良さそうです。
Tweet media one
1
15
78
@kohya_tech
Kohya Tech
11 months
Animate AnyoneでもMagicAnimateでも、���見の一貫性の確保、ポーズ等の伝達、フレーム間での一貫性の確保、という三つの構造は同じ。 外見はLoRA、ポーズ等は ControlNetを使えば、あとはフレーム間のところだけ軽量な何かを考案すれば、コミュニティでの学習も可能になるかもしれない。
3
11
78
@kohya_tech
Kohya Tech
1 year
SDXLのLoRA学習、Text Encoderの出力をキャッシュすればVRAM 12GBでbatch size 1、rank (dim) 128のC3Lier(LoCon)まで行けそう(rankが低いとわりと余裕がある)。キャッシュしないと16GB必要みたい。
2
12
77
@kohya_tech
Kohya Tech
1 year
学習用スクリプトのリポジトリを更新しました。SD1/2、SDXLの学習でText EncoderにU-Netと異なる学習率を指定する機能の追加、Debiased Estimation lossの追加、その他の機能追加や修正などを行いました。
2
19
76
@kohya_tech
Kohya Tech
2 years
WD15 beta2 Aesthetic+画風LoRA+キャラLoRA+本屋背景LoRA。 furusu氏のWD15beta2用CannyのControlNetを使いたかったけど背景への効きが弱かったので、背景とキャラで別々に生成した画像を手作業で合成して、LoRA領域指定でimg2imgした。総生成枚数1,200枚(;・∀・)
Tweet media one
Tweet media two
Tweet media three
0
8
76
@kohya_tech
Kohya Tech
1 year
これは個人的な感想だけど、モデル流出した人間が悪いのは大前提として、NovelAIにもこのgdgdの責任の一端はある気がするので、リークモデルの扱いについて、「使用不可、厳正に対処する」「自由に使ってよい」「商用利用は不可」とかいま一度見解を明らかにしても罰は当たらないんじゃないかな
3
14
74
@kohya_tech
Kohya Tech
8 months
RTX A6000届いた(・∀・) バルクだけどPCIe 8pin->CPU 8pinの電源変換ケーブルは付いてた。
4
8
76
@kohya_tech
Kohya Tech
1 year
SDXLベースのアニメモデル9個を等分にマージしたらわりといい感じだ(;・∀・)
Tweet media one
Tweet media two
2
11
71
@kohya_tech
Kohya Tech
1 month
FLUX.1 devのピンボケ改善、個人的に一番効果があったのはステップ数を増やすこと……。身も蓋もないけど(;・∀・)  20だとぼやけるプロンプトでも、50ならぱっきり。
3
11
73
@kohya_tech
Kohya Tech
2 years
Mikubill氏のControlNetのWeb UI拡張で使える、transfer control用の差分ファイルを上げました。
0
20
71
@kohya_tech
Kohya Tech
5 months
SDXLのControlNet、学習済みモデルに今までわりと微妙なのが多くて、(skip connectionが少ないとか)アーキテクチャのせいかと思ってたんだけど(だからLLLiteとか作ってた)、上手く使えばきちんと動作するのがわかって衝撃的……。
1
10
70
@kohya_tech
Kohya Tech
1 month
ComfyUIのLoRA実装が更新されて、sd-scriptsで学習したT5XXLのLoRAが効かなくなってるっぽい(;・∀・) せっかく実装に合わせておいたのに……。どうするかな……。
2
7
70
@kohya_tech
Kohya Tech
2 months
オリキャラちゃんLoRAをFLUX.1 devで80 images, batch size=1, 4 epoch=320 stepで学習してみたけど、普通に学習できるな。設定は前と同じ。適用率はやっぱり2.0以上が必要。
Tweet media one
Tweet media two
1
6
68
@kohya_tech
Kohya Tech
2 years
画風LoRA作る→モデルにマージする→そのモデルでキャラLoRA作る、とするとキャラの特徴だけ抽出できる……気がする。 あと両者は強度わりと強めで同時利用できるようになる。
1
12
66
@kohya_tech
Kohya Tech
9 days
Meissonic、1BでSDXLに匹敵するらしい。non-autoregressive masked image modeling (MIM)はよくわからないけどモデル構造はFLUX.1に似てる。Text EncoderはCLIP-Hみたい。ライセンスはASL 2.0。
1
25
129
@kohya_tech
Kohya Tech
1 year
学習用スクリプトのリポジトリを更新しました。LoRA学習時のmax norm regularizationおよび各種のdropoutを追加しました。またv-pred lossをnoise predと同様にスケールするオプションを各スクリプトに追加しました。
0
21
65
@kohya_tech
Kohya Tech
2 years
Web UIがsd-scriptsの0.4.0で学習したLoRAに対応したようです。素早い対応に感謝です。 実は1111氏から直接質問されて答えました(;・∀・)
1
22
65
@kohya_tech
Kohya Tech
2 months
sd3ブランチのFLUX.1向けLoRA学習機能を更新し、いくつかのオプションを追加しました。READMEに書いてある設定で学習結果がある程度改善されるようです。より良い設定があればご共有ください。よろしくお願いいたします。
1
16
64
@kohya_tech
Kohya Tech
3 months
遅ればせながらFLUXの自前スクリプトでの推論できた。先が長い(;・∀・)
Tweet media one
2
3
64
@kohya_tech
Kohya Tech
8 months
SDの位置情報がpaddingで与えられてる説、���証して���た。Conv2dを1枚目のように書き換えて、U-Netの深いところ(depth=4)、最初の方(t>700)だけ分割した。 Animagine XL 3でAttention Coupleを用いて三分割してプロンプトでキャラ指定すると、ちゃんと各領域が分割された。2枚目上段分割なし、下段あり
Tweet media one
Tweet media two
0
20
64
@kohya_tech
Kohya Tech
2 months
参考用にFLUX.1 devの川瀬巴水LoRAを上げました。ComfyUIで使えるはずです。適用率2.0程度を指定してください。
1
10
64
@kohya_tech
Kohya Tech
1 year
ControlNet-LLLiteのアニメ絵向けposeモデルの試験的重みをHugging Faceに上げました。サンプルはのちほど追加します。
Tweet media one
0
12
63
@kohya_tech
Kohya Tech
1 year
ちょっとまだコードを更新する気力がないので適当なLoRAを作っていた。適用するとひび割れた感じになるLoRA。SD1.5で作成、生成例はACertainThingに適用。
Tweet media one
Tweet media two
0
14
63
@kohya_tech
Kohya Tech
11 months
アイデアは極めて単純で、「構図を決めるのはノイズに近いtimesteps」「構図を決めるのはU-Netの深い部分」らしいことが分かっていますので、その部分のlatentsを縮小してあげるだけです。 sd-scriptsの生成スクリプトで実現する差分を置きました。
3
14
60
@kohya_tech
Kohya Tech
8 months
Stable Cascade、自前スクリプトで推論できた。といってもgdfから先はそのままだけど。必要なVRAMは、簡単なVRAM消費削減を入れて、1024x1024、bf16で8GBちょっと。
Tweet media one
0
15
63
@kohya_tech
Kohya Tech
2 years
ControlNetのtransfer control、若干効果ありそう。1枚目はACertaintyにSD15のControlNetをそのまま適用、2枚目はACertainityにtransfer controlして適用。少し線がシャープに。 pull requestを作って出すか、と思ったら作業中みたいだ。どうするかな。
Tweet media one
Tweet media two
1
16
61
@kohya_tech
Kohya Tech
17 days
sd3ブランチで、FLUX.1のLoRA学習、fine tuning時にschnellモデルを正しく判定するようになりました。これによりschnellモデルも学習可能ですが、学習結果は未検証です。またDiffusers形式のファイルを直接読み込めるようになりました。
0
17
62
@kohya_tech
Kohya Tech
2 years
Attention Couple+領域別LoRA、領域の境を64で割り切れる値にするときれいに分かれる(この例では960x640を320x640で三分割)。ただし二人しか出なかったり近づきすぎたりすると混ざるのでControlNetなしだと回数が必要。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
10
60
@kohya_tech
Kohya Tech
2 months
FLUX.1 fine tuning結果。1枚目学習なし、2枚目学習後。 学習率5e-5、Adafactorでbatch size=1、川瀬巴水の画像169枚*4epoch=676 steps。4090で1時間30分くらい。
Tweet media one
Tweet media two
0
10
60
@kohya_tech
Kohya Tech
2 years
DyLoRAも実装した。DyLoRAは指定したrank以下の任意rankのLoRAを抽出できるらしい。dim(rank)=16で学習して、それぞれ4、8、12、16で抽出したLoRAの生成結果。 実装を見ながら適当に再現実装したけど、scaleするとおかしくなるし何か間違ってる気もする……(;・∀・)
Tweet media one
3
6
57
@kohya_tech
Kohya Tech
5 months
LLMでの仮想配信、7BクラスだとNinja-v1-RP-expressiveがかなり自然。TTSも繋げてみた。量子化によるけど12~GB VRAMで動くはず。 ※音が出ます。音声はStyle-BertVITS2使用。モデル: あみたろ&小春音アミ、あみたろの声素材工房 () とJVNVコーパス jvnv-F2-jp。
0
18
60
@kohya_tech
Kohya Tech
2 years
学習用スクリプトのリポジトリを更新しました。D-Adaptation、AdaFactor等のオプティマイザが使えるようになりました。不具合等ありましたらご連絡ください。
1
16
56
@kohya_tech
Kohya Tech
1 year
LoRA学習時のDropoutの効果比較。過学習が抑えられている感じがする。dim=32,conv_dim=16,alphaは両方とも1。プロンプトに"upper body"を含む。WD15Beta3ベースで差分追加学習法で学習。 引数は「--network_dropout 0.1 --network_args "rank_dropout=.25" "module_dropout=.05"」
Tweet media one
1
12
58
@kohya_tech
Kohya Tech
9 months
ANIMAGINE XL V3のDeep Shrink設定、良さそうなのは「ts 750/depth 3, ts 550/depth 4」あたりかな……。 1枚目設定なし 1344x768、2枚目 0.75 1792x1024、3枚目 0.5 2688x1536
Tweet media one
Tweet media two
Tweet media three
1
10
55