動詞 Profile Banner
動詞 Profile
動詞

@IMG_5955

Followers
558
Following
138
Media
104
Statuses
650

AI/ML engineer, (score-based generative model:1.1), vision-language, novice runner, karaoke daisuki club, filmgoer

Joined October 2023
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
Pinned Tweet
@IMG_5955
動詞
3 months
Aesthetic Predictor V2.5を公開しました! 画像の美しさを1〜10点で評価することができるモデルで、従来のものに比べ汎用性が高く、写真はもちろんイラストの評価にも強いです。 すぐ試せるデモも用意してみたので遊んでみてね‼️ GitHub: Demo:
Tweet media one
1
42
103
@IMG_5955
動詞
9 months
LCMのリアルタイム画風変換を33fpsまで高速化できたので、ここまでで高速化に寄与した手法(と微妙だった手法・試していない手法)を記事にまとめました。 【LCM】512×512pxの画像を0.03秒でリアルタイム画風変換する|動詞 #zenn
4
136
428
@IMG_5955
動詞
9 months
自分たちが今開発しているStreamDiffusionのデモを作成しました! 動画は実画面のキャプチャです。 StreamDiffusionでは、好きなSDのモデルで動画のようにリアルタイムのtxt2imgができるようになる予定です。
@cumulo_autumn
あき先生 / Aki
9 months
今、動詞さん( @IMG_5955 )とらむねさん( @__ramu0e__ )、そして以前からのメンバーの皆さん( @ddPn08 , @ArtengMimi , @toni_nimono , @hanyingcl )と一緒に公開用のgithubリポと手法等をまとめた論文を作成中です! 今週の日曜~火曜日あたりでの公開を目標に頑張っていますので、もう少々お待ちください!
5
63
290
1
89
275
@IMG_5955
動詞
7 months
あらゆる時系列データをDecoder-onlyのモデルにぶっ込んで時系列予測の基盤モデル作る話 アイデアからして面白かった
1
25
265
@IMG_5955
動詞
6 months
これすごい有益な記事だった コード例を示しながら、SDXLの省メモリ化・高速化の手法のほとんどを試してどのぐらい効果があったかRTX3090で確認してる CUDAとPyTorchのバージョンの組み合わせだったり、DeepCacheまで試してるのは初めて見た
0
57
255
@IMG_5955
動詞
7 months
この記事めちゃくちゃ面白かった!! Transformerブロックの中で何が起きてるのかについて、特にFFNに着目して解明しようとした話 self-attnが入力を学習したパターンにマップして、FFNがそれに続く次トークンの方向に"調整"するっていう仮説の説明がかなり分かりやすかった
Tweet media one
1
39
251
@IMG_5955
動詞
7 months
GPT-3.5 TurboとTTSとMoviePyを使って全自動でトピックトークするYouTube Short動画を作成するリポジトリ、名前が面白いからウォッチしてるけど、ものすごい勢いでスターが伸びてる
0
29
206
@IMG_5955
動詞
3 months
Stable Diffusion 3、テクニカルレポートがかなり難解で困ってたけど、さっそく知の高速道路が敷設されてる。本当にありがたい…。 まずnnablaさんの動画シリーズを見て文脈を理解してから(50分)、 @henatips さんの記事を読めば最短で理解できる
1
27
189
@IMG_5955
動詞
6 months
Stable Diffusion 3、Text EncoderにT5使ってる上にDiTだ!!!!!
Tweet media one
@_akhaliq
AK
6 months
Stabillity AI presents Stable Diffusion 3 Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for
Tweet media one
8
149
651
1
20
116
@IMG_5955
動詞
9 months
PDFのレイアウトを保ったまま日本語訳するリポジトリをアップデートして、性能を向上させたほか、GradioのWebUIを追加しました! あんまりイケてない部分もありますが、普通に便利なので良かったら使ってみてください!
0
28
113
@IMG_5955
動詞
7 months
GPT-4Vでキャプション付けした20万の画像-テキストペアでファインチューニングしてからDPOでアラインさせたモデルを見つけた 画像生成モデルの学習もだんだんLLMっぽい作法が持ち込まれてきてる感じする
1
17
87
@IMG_5955
動詞
7 months
ただでさえ扱いが簡単なHugging Faceのライブラリ群を更にラップして言語モデルを簡単にFTできるようにしたリポジトリ 50行かそこらでDPOができたり、GPT-4でSynthetic Dataを作成して言語モデルをFTするまでのコードを書けたりする
0
12
86
@IMG_5955
動詞
2 months
回転した画像(スマホで横向きに撮られた写真みたいなやつ)の自動修正が必要になったので調べると、SOTAが精度87%とかでメチャ微妙だったのでホンマか❓と思って適当に学習回したら本当にそこで収束してびっくりした エーアイくんさ、絵とか文章それっぽくやれるのになんでこんな簡単なこと出来ないの
Tweet media one
1
15
84
@IMG_5955
動詞
5 months
HuggingFaceが新しく公開したVLMのIdefics2、モデルサイズが8Bなのに、LLaVa-NeXT-34Bよりベンチマーク強いし、ライセンスがApache2.0だし、本当にカタログスペック通りならかなり良さそう
0
17
80
@IMG_5955
動詞
30 days
Flux.1-schnell、推論速度も品質もただただすごい こんなんがローカルで動かせちゃっていいんだ…って感じだ
Tweet media one
Tweet media two
Tweet media three
1
10
79
@IMG_5955
動詞
6 months
Open Soraのコード読んだ 現時点でText Encoderは設計に入ってないのでOpen VocabularyなConditioningはできない雰囲気で、学習データセットはUCF101っぽそう(Kineticsも予定ありっぽい?) コードもデータも計算機も十分じゃないので、ここからみんなで育てていこう感がある
1
13
75
@IMG_5955
動詞
7 months
SDXLの潜在表現が大きすぎる・小さすぎる値をとることがあり、その場合にピクセルとして表示できずに情報が欠落し、生成品質が下がることがあることを指摘 潜在表現に対して単純な操作(正規化・外れ値除去)をすることでそれを回避して、主に色彩面で生成品質を改善する話
1
12
63
@IMG_5955
動詞
9 months
技術を頑張ってみて記事書いたりするたびに思うけど、昨今のメジャーなMLタスクで個人が技術をプロプライエタリにして活用方法模索する意味って無い気がする LCM高速化だって、自分がやろうがやるまいが1ヶ月後には結局60fps出るGithubリポジトリが生えてコミュニティが育てていくので、勝ちようがない
1
13
62
@IMG_5955
動詞
7 months
まとまった量のSD/SDXL追加学習Tipsが書いてある さらっと読んだ感じ、SNR gammaを設定してタイムステップ間の損失を均すことで収束が速くなるって話が特に有益そう
0
13
59
@IMG_5955
動詞
1 month
拡散モデルの学習初期に吐き出される画像綺麗すぎる もうここでモデルfixしても良くない?
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
4
52
@IMG_5955
動詞
5 months
単なるDiffusionを使ったImage Editingの論文なんだけど、モデル構築のパイプライン偉すぎてスゲーと思ったらByteDanceの論文だった 最近画像生成の論文でByteDanceを見すぎる
Tweet media one
0
3
52
@IMG_5955
動詞
3 months
月須和さんのやってるanytest、意識されてるのかされてないのか分からないけど、SimCLRみたいなVision Encoderの事前学習じみてるし、Diffusionを使って誰も成し遂げてない何かをやってる気がする コピー機LoRAもそうなんだけど発想が凄すぎて何本でも国際会議に論文通せそう…
1
10
49
@IMG_5955
動詞
8 months
LCM高速化の記事を書いた後にjoinして、リポジトリの整理にちょっと関わっただけですが、ついでに共著で載せてもらいました! StreamDiffusionの中身についても、地道なエンジニアリングはもちろん、RCFGみたいなすごい提案手法もあってすごい! 関われて楽しかった〜、みなさんお疲れ様です!
@cumulo_autumn
あき先生 / Aki
8 months
大変お待たせしました!本日arXivにて公開された私達の論文「StreamDiffusion」について GitHubリポジトリの方も公開しました!100fps以上出すことも可能です! 詳しくは論文、リポジトリのREADMEをご確認ください! #StreamDiffusion 論文: GitHub:
17
1K
4K
0
13
47
@IMG_5955
動詞
2 months
学習中のVAEが既にSD1.5のVAEよりだいぶ性能良くて気分いい SDXLよりはちょっといいぐらい
Tweet media one
Tweet media two
0
4
46
@IMG_5955
動詞
9 months
SDXL Turbo速すぎてワロタ(動画は1stepのtxt2img、倍速なし)
2
10
45
@IMG_5955
動詞
6 months
Stable Diffusion 3のTransformer Blockの構造めちゃくちゃ変だな ConditioningのためのCross Attentionと非線形変換のためのSelf Attentionを混ぜたような雰囲気
Tweet media one
0
4
45
@IMG_5955
動詞
4 months
LoRAdapter、LoRAのDown出力をアフィン変換するだけでControlNetと同等の条件付けをやっててめちゃくちゃ面白い これ然りSD3然り、AdaLNやら線形変換やらで上手くやってるの見ると、SD V1アーキテクチャのCrossAttnを使った条件付けはtoo muchだったような気さえしてくる
Tweet media one
1
9
43
@IMG_5955
動詞
4 months
Llama3の裏でひっそりとInternVL-Chat-V1.5がリリースされてる! モデルサイズ26Bって多分4bitで余裕を持って24GB VRAMに乗るのでかなりちょうど良い…
1
6
42
@IMG_5955
動詞
2 months
一生懸命頑張って成果を出しても1年後には技術的優位性が無に帰す世界だし、ハードワークして同僚の間とかSNSでこの人はすごい!と思われても結局5年後には忘れられるので、強くなりたいとか、誰かの役に立ちたいみたいな欲望を上手に抑えて、ちゃんと大切な人と向き合っていきたいよね(自戒)
0
8
40
@IMG_5955
動詞
2 months
「20代は何に代えてでもハードワークして実力をつけた方がいい」説と「結局人生は大切な人との時間が一番大事」説のどちらをとるか毎日迷いまくってて、1週間の中で最大5回ぐらいこの両端を行き来することがある
1
0
38
@IMG_5955
動詞
6 months
W1.58A8のBitNetが持て囃されてLeapMindのW1A2が無視されてるの本当に見せ方ありきだなと思う(BitNetがバズった理由ってタイトルだけ見て全ての計算を1.58bitでやるものだと勘違いした人が結構いたからじゃない?)
1
10
37
@IMG_5955
動詞
4 months
Spellbrush(にじジャーニーの開発元)訪問してきた! 秋葉原のホコ天が一望できてメチャいい立地だった
Tweet media one
Tweet media two
1
6
37
@IMG_5955
動詞
3 months
Omost、LLMとSDXLは一切結合してない(あくまでLLMはリージョンごとのプロンプトを決定しているだけ)のでイラストモデルを使うことも普通にできる
Tweet media one
Tweet media two
0
5
37
@IMG_5955
動詞
2 months
SD3アーキテクチャのVAEスクラッチ学習やってるけど一生これなので進捗あるのかどうか全然分からん
Tweet media one
1
1
36
@IMG_5955
動詞
3 months
これってStable Diffusion登場当時は学習データを用意する難易度が高くて技術的に無理だった話だけど、今ならVLMでいくらでもこういうデータ用意できるので、全然作れそう(推論のときにAttention弄れば今のSDXLでもある程度出来るし) 作るコストに見合うぐらい使いたい人がいるかが問題な気がする
@fladdict
深津 貴之 / THE GUILD
3 months
すべての画像生成AI作ってる人に提案したいんだけどさ… タグとか自然言語でラベルつけるより、階層型のマークダウンがJSONでラベルつけたほうが、性能上がらない?? ・女の子  ・長い髪   ・リボン  ・青い目  ・セーター   ・ミドリ ・犬  ・赤い首輪 みたいな
9
193
1K
1
5
35
@IMG_5955
動詞
6 months
Hugging Faceから新しく出てきたQuantoってライブラリ、Transformersのモデルをかなり簡単に量子化できる枠組みっぽくてすごく良さそう まだベータだけど発展が楽しみ
0
1
34
@IMG_5955
動詞
4 months
ワイワイ
Tweet media one
0
0
33
@IMG_5955
動詞
29 days
ReFlowされてて追加学習の難しいFlux.1 Schnellを商用利用可能にしつつ、蒸留の緩いDevを非商用で公開すると、self hostに興味のないコミュニティはDevで遊ぶはずなので、OSS文化に貢献しながら競合への餌やりを最小化できるっていう目論見だと思ってて、BFLはSAIの失敗ルートを確実に潰してる感じする
2
10
34
@IMG_5955
動詞
9 months
MagicAnimateのControlNetを雑にOpenPoseに置き換えた生成結果 動きはするけどウーン…。 (ポーズは からお借りしました)
2
13
31
@IMG_5955
動詞
3 months
Phi-3やっぱモデルサイズ比の性能高すぎる このサイズだとBERTに解けないけどLlama3じゃtoo muchなタスクを解くときにClassifier Headつけて使いたくなるな
0
1
32
@IMG_5955
動詞
2 months
最近テキスト分類やるぞ〜ってなったときに初手でRoBERTaとか使わずにDecoder-onlyの言語モデルの出力層の代わりにClassification Head付けて学習すること増えた気がする BERT選ぶときは動作が軽いモデルが欲しいときだけど、別にそれはEocoderの特性ではないし…(Decoder-onlyとは?)
0
2
31
@IMG_5955
動詞
4 months
今更Claude3 Opus初めて触ったので、せっかくなら凄いことしてもらいたくて、コードが "エレガントでPythonic" になるようにリファクタリングお願いしたら、かなり大胆なアルゴリズムの簡略化が行われてコードがめっちゃシンプルになっておおッスゲェ‼ ってなった、もちろん全く動かなかった
0
1
29
@IMG_5955
動詞
1 month
VLMのSOTAが更新されてる!でっか
0
4
27
@IMG_5955
動詞
7 months
1〜10人までの人数を表す言葉のコサイン類似度をCLIP(ViT-L/14)とT5(large)でそれぞれ見たヒートマップ T5と比較するとCLIPの数の認識の適当さが際立って分かりやすい
Tweet media one
Tweet media two
1
4
27
@IMG_5955
動詞
9 months
ゆずき @uzuki425 さんによると、RTX4090で45fps出たそうです!やったぜ
@IMG_5955
動詞
9 months
LCMのリアルタイム画風変換を33fpsまで高速化できたので、ここまでで高速化に寄与した手法(と微妙だった手法・試していない手法)を記事にまとめました。 【LCM】512×512pxの画像を0.03秒でリアルタイム画風変換する|動詞 #zenn
4
136
428
1
8
27
@IMG_5955
動詞
1 month
SDXLの最大入力トークン長をめちゃくちゃ拡張して自然な英文でフルファインチューンしてるけど想像より上手くいってて面白い まだ色々適応中なので生成の品質こそ低いものの、テキストへの追従は思ったより進歩してる
Tweet media one
1
6
27
@IMG_5955
動詞
3 months
メール見たらSD3のやつ来てた! やっぱり商用利用はライセンス必要っすよね〜〜
Tweet media one
1
5
26
@IMG_5955
動詞
29 days
フリータイムで入ったカラオケ内でメモリリークに気づいて苦しんでる(通常、出先でwandbは見ない方がよいとされている)
Tweet media one
0
0
26
@IMG_5955
動詞
3 months
とりにくさん、抹茶もなかさん、まっくすさんのAI手書き支援ツール開発の三人四脚(もしくは開発レース)を見るのが最近すごく楽しい 運良く今まっくすさんの手札も見える立場にいるので完全に特等席に座れている
0
4
24
@IMG_5955
動詞
6 months
アーキテクチャに紆余曲折あったDiffusion Modelも結局これになるの感慨深いな
Tweet media one
2
5
23
@IMG_5955
動詞
9 months
個人的に、イケイケエーアイの技術を頑張るのは勉強ついでの娯楽として割り切っていて、ついでにGithub / Zennのスターが稼げたり、ひょっとすると、おもしろい人の目に留まったりしてくれないかな? みたいな気持ちでやっています
0
3
24
@IMG_5955
動詞
9 months
論文に注目してもらうためにここまで見た目凝らなきゃいけないのすごい世の中だ
@Double47685693
Jinbo Xing
9 months
Introducing 𝗗𝘆𝗻𝗮𝗺𝗶𝗖𝗿𝗮𝗳𝘁𝗲𝗿! 🤗DynamiCrafter can generate high-dynamic videos by animating open-domain still images using text prompt as addtional dynamic control. 🌊Paper: 🌠Project:
2
22
94
1
6
23
@IMG_5955
動詞
6 months
お?と思ったらOpenAIからの答え合わせではなく、第三者が公になった情報からアーキテクチャを推測する論文だった
0
7
23
@IMG_5955
動詞
1 month
まだバラさないで欲しかった(いうてPixArtの論文読むと分かっちゃうよな)
@jaguring1
小猫遊りょう(たかにゃし・りょう)
1 month
画像生成AIの学習コストが大幅に低下。ついに数十万円に(Sonyの研究) Stable Diffusion(SD)品質のモデルを約1,890ドル(約29万円)で学習。SDの118分の1。生成画像を学習すると性能向上。3700万枚(実画像+生成画像)で学習。8 x H100 で2.6日。計算回数は3.45 × 10^20回
Tweet media one
0
132
421
0
4
23
@IMG_5955
動詞
9 months
LCMを使って、リアルタイムに変遷していく生成画像にブラシで加筆して直接変化を加えられるWebアプリを作った プロンプトも都度生成してて、加筆から生まれたピクセルがランダムに形をとりながら停滞せず変化し続けるようになってる 実用性ゼロだけどメチャ楽しい
0
10
22
@IMG_5955
動詞
3 months
大規模データの前処理の正解分かった Apache SparkでLazyに読み込んでworkerクラスタにジョブ割り振るとか全部嘘で、データを細かく分割して、分割した分だけEC2インスタンス立てて一発でやるのが一番楽
Tweet media one
0
1
22
@IMG_5955
動詞
4 months
Pydanticチームが作った新しいオブザーバビリティツールかなり気になる FastAPIで作ったアプリケーションに1行追加するだけで組み込めるの強い
0
4
21
@IMG_5955
動詞
2 months
T2Iモデルの事前学習で品質を上げるテクニックとして、密かに思いついて実行してたこととほぼ同一の内容がKuaishouのKolorsのテクニカルレポートに書いてあって笑ってしまった 同じ時代でほぼ同じ課題を解こうとする人間、よほどの天才以外は似たようなことを同時に思いつくので隠す意味なんか無いな
2
2
21
@IMG_5955
動詞
6 months
StableCascadeのStageBをSDXL/SD1.5系列のモデルに置き換えるComfyUIのワークフロー StageCの出力の扱いがかなり強引だけど、結果は壊れてない…。
0
5
19
@IMG_5955
動詞
4 months
大人って善意だけで何かを供与することをしないので、ほぼ確実に供与による将来的な利得(必ずしも金銭ではない)を期待してるはずなんだけど、AIの人って本気で善意っぽい人が多いの、良いな〜とは思いつつ、今いる人が全員善人だとしても、今後悪い大人が入り込みやすい環境が生まれる気もする
2
1
20
@IMG_5955
動詞
4 months
金になるエーアイ領域がデカい企業に叩き潰されるのを見るたび、画像生成とかいうなんか全然金にならないし大した必要性もない、強いて言えばちょっと面白いぐらいの分野にいて良かったな…😌とちょっとホッコリする自分がいる
0
1
19
@IMG_5955
動詞
6 months
Speculative DecodingみたいなLLMの推論高速化手法をTransformersがサポートするモデル(多分AutoModelForCausalLMに属するもの)で気軽に使えるようにしたリポジトリ
0
4
19
@IMG_5955
動詞
3 months
需要があるか謎ですが、Aesthetic Predictor V2.5のComfyUIカスタムノードを一応作成しました。 画像のように使えます。
Tweet media one
0
4
19
@IMG_5955
動詞
3 months
RB Modulation、参照スタイルを入力するだけ(追加学習なし!)で画像のスタイル変換ができるっていう凄い触れ込みだったので論文見たら、代わりに拡散モデルを普通の4〜5倍も評価するらしい… 推論がメチャ遅くなるので実用は難しそうだけど、手法自体は斬新で面白かった!!
Tweet media one
1
1
17
@IMG_5955
動詞
1 month
Scaling Diffusion Transformers to 16 Billion Parameters
Tweet media one
1
4
17
@IMG_5955
動詞
4 months
GPT-4oの性能確認ついでに、CVPR2024のAccepted Paperのうち、既にarXivに上がっているものの日本語要約を、タグとの一致度で検索できるWebアプリをHugging Face Spacesに上げてみました! ぜひ見てみてください〜 Hugging Face Space:
Tweet media one
1
8
17
@IMG_5955
動詞
6 months
これ個人的にアツい
Tweet media one
0
1
17
@IMG_5955
動詞
3 months
学習終了まであと75年!?
Tweet media one
1
0
16
@IMG_5955
動詞
2 months
Kolors、HFのタグでApache2.0付けてておおっ!と思わせてからのREADMEで独自規定あるパターンで泣いた😭😭 最近画像/動画生成モデルにコレ系多くない?
Tweet media one
Tweet media two
0
1
16
@IMG_5955
動詞
3 months
RegionalにPromptingして精緻に画像生成したい❗🤩 ← わかる でも精緻に書こうとするほどPromptの入力コストが高い😔 入力フォーマット決めるのもムズい😖 ← わかる だからLLMのコーディング能力とPythonの言語機能をExploitしてLLMに簡単な指示から書き起こさせよう‼️🤩🥰 ← この発想力何❓
0
4
16
@IMG_5955
動詞
3 months
初めてのDiffusion Transformerスクラッチ学習の記念すべき最初のバリデーション結果出た❗
Tweet media one
0
0
16
@IMG_5955
動詞
25 days
Transformerで使うPositional Embeddingのこと最近全然追ってないけどRoPEである程度決着ついたのかな
1
0
16
@IMG_5955
動詞
3 months
最近オープンソースで性能のいい画像生成モデルがポンポン出てきててすごいな〜と思ったけど、Llama公開からずっとオープンソースの開発競争が起きてるLLMと対比するとStabilityAI製のモデルの人気独占が1年半以上続いたことの方がすごかったかも
0
6
16
@IMG_5955
動詞
3 months
もうちょい試して性能良さげならAesthetic Predictor V2.5とか名付けて公開しようと思います! 今までイラストと写真両方に強いオープンのAesthetic Predictorはあんまり無かったので、データ選定に苦労することが多かったけど、これを使えば画像データセットの前処理をだいぶ効率化できるはず
@IMG_5955
動詞
3 months
Aesthetic Score Predictor なかなか良くなってきた気がする
Tweet media one
1
0
11
1
2
16
@IMG_5955
動詞
1 month
SDXLのフルファインチューンが40GBのA100で回らなかったので、今になって考えるとGaLoreを試す良い機会だったんだけど、昨日の自分は躊躇なく48GB↑のGPUを使うことを選択してしまった "老い"が来てる
2
0
15
@IMG_5955
動詞
4 months
生成AIなんでも展示会すげ〜楽しかったのでかなりモチモチし*てきた 新年度の変化落ち着いてきたのでそろそろ外向けの進捗出したいな *: モチベーションが高まること。また、そのさま。
0
0
15
@IMG_5955
動詞
2 months
This histogram shows scoring results of CommonCatalog CC-BY and Megalith-10M subsets using Aesthetic Predictor V2.5. Actually, Megalith is much better than CC. While CC left-skewed, Megalith has a long tail extending to the right, containing many aesthetically pleasing images.
Tweet media one
2
2
15
@IMG_5955
動詞
7 months
Transformersのv4.37.0、破壊的変更すぎる たった一つ前のv4.36.2で動くコードが普通に動かなくなったのえぐい
0
1
14
@IMG_5955
動詞
3 months
今までanytestがヤバいのがいまいちバレてなかったことを後方彼氏面オタクよろしく喜んでたんだけど、バレた(当然)ので勝手に一人で悲しんでます
0
2
14
@IMG_5955
動詞
3 months
初めてのフルマラソン、とりあえず完走が目標だったので序盤は関門通過ギリのペースで走ってたけど、意外と行けるかも?と思ってペース上げたらメチャキツかったけど5時間切りで完走できた!!嬉しい!! 7ヶ月前にランニング始めたときは1km走るのも必死だったけど、コツコツ努力してきて良かった💪💪
Tweet media one
2
0
14
@IMG_5955
動詞
3 months
これ、Guided Diffusionの1つの進化形だと思ってて、評価回数こそ増えるもののPCMとかHyperSD使えばまあ耐えられない訳ではない推論速度だと思うので、かなり興味ある 実装公開されたら色々弄ってみたい…!
@IMG_5955
動詞
3 months
RB Modulation、参照スタイルを入力するだけ(追加学習なし!)で画像のスタイル変換ができるっていう凄い触れ込みだったので論文見たら、代わりに拡散モデルを普通の4〜5倍も評価するらしい… 推論がメチャ遅くなるので実用は難しそうだけど、手法自体は斬新で面白かった!!
Tweet media one
1
1
17
0
2
14
@IMG_5955
動詞
2 months
ツイートで驚き屋をやる能力がないので、驚きが上手な方に自分なりの全力驚きツイートを添削してもらったら、自分じゃ一生かかっても考えつかなかったような驚きフレーズのアイデアをもらえて本当に感心したことがある
0
0
13
@IMG_5955
動詞
3 months
拡散モデルベースのTalking Head、条件付けはなんぼあっても良いですからねみたいな世界観になってきてる
Tweet media one
0
0
14
@IMG_5955
動詞
3 months
学習済みのSDにセマンティックな情報が詰まってるのはそこそこ知られてるけど、追加のネットワーク(LoRA、CN)で情報の引き出し方を学習することでかなり色々できることまではまだ理解されかけみたいな段階だったと思う
1
2
14
@IMG_5955
動詞
2 months
Gemma2の日本語性能高そう、DiTのテキストエンコーダーに使おうかな ↑ ライセンスがね… Llama3の日本語継続学習モデルすごそう、DiTのテキストエンコーダーに使おうかな ↑ ライセンスがね…
0
0
14
@IMG_5955
動詞
9 months
LCM-LoRAを長く学習したらtxt2imgの品質が3stepsでもそこそこ良い感じになった
Tweet media one
1
0
14
@IMG_5955
動詞
2 months
キタ〜と思いつつダウンロードURLしかデータレコードに載ってない今拡散するとFlickrに負荷かかりそうで言及するのやめたやつだ 作者曰く、キャプション他のメタデータを付与した後に実画像入りのデータセットを後日公開予定だそう
@alfredplpl
あるふ
2 months
お、CC-0相当の画像データセット1000万枚がきた!
2
44
162
0
5
13
@IMG_5955
動詞
8 months
- Twitterの通知をオフにして通知欄を一切見ない - 拡張機能でRT、いいね数を不可視化 - "For You"を不可視化 をやって3ヶ月ぐらい経つけど、Twitterから与えられる正の報酬も負の報酬もほぼゼロになってかなり良い(良すぎてあんまり見なくなった)
1
0
12
@IMG_5955
動詞
3 months
Rectified Flowが出てきてくれたことで理解までの文脈が長すぎるScore-based Generative Modelの流行りは終わる(事前知識が最適輸送の話だけで済むようになる)のかと思ったけど、Consistency Trajectory ModelからのPhased Consistency Modelで更に文脈がヤバくなってきてる どこまで行くんだ
1
0
13
@IMG_5955
動詞
26 days
エーアイでは生成できないものを摂取してきた
Tweet media one
0
1
13
@IMG_5955
動詞
1 month
仕事終わりに1時間半ウェイトトレーニングした後10kmランニングしてもまだ体力残ってて、しばらく職場で趣味コード書いてたの後から思い出して沸々と体力イキりツイートしそうになってる(今してる)
1
0
13
@IMG_5955
動詞
1 month
この歳になってようやく物事をある程度継続する能力がついたので継続してるけど、本当に継続ってすごい、1年ランニングすれば体力は人以上につくし、1年半ほぼ毎日歌ってればミックスボイスらしきものが出せるようになるし、なんか自分が一生出来なそうな雰囲気のものがいつの間にか出来てびっくりする
1
0
13
@IMG_5955
動詞
3 months
CommonCatalogのCC-BYデータセット、ダウンロードと解凍だけでもう50TB以上使ってRAIDから溢れかけててヤバそう データをarrow形式に変換するだけで60時間以上かかってて大規模学習やってる感ある
1
1
13