動詞 @IMG_5955 profile

動詞

@IMG_5955

Followers

558

Following

138

Media

104

Statuses

650

AI/ML engineer, (score-based generative model:1.1), vision-language, novice runner, karaoke daisuki club, filmgoer

https://t.co/FPUkwtPE7p

Joined October 2023

Don't wanna be here? Send us removal request.

Explore tweets Explore followers Explore following

Explore trending content on Musk Viewer

jungkook • 1298629 Tweets

ميلان • 1077033 Tweets

Barca • 196320 Tweets

لاتسيو • 194145 Tweets

#WWEBash • 177794 Tweets

Flick • 156289 Tweets

Haaland • 151988 Tweets

Georgia • 140556 Tweets

Raphinha • 135475 Tweets

Mustafa Kemal • 107915 Tweets

Everton • 85304 Tweets

Fatman Scoop • 81716 Tweets

Adana • 66755 Tweets

Miami • 60052 Tweets

Valladolid • 55681 Tweets

Yusuf • 55577 Tweets

Clemson • 51578 Tweets

#ADSvGS • 42944 Tweets

Greenwood • 35682 Tweets

Iowa • 32343 Tweets

Rhea • 31770 Tweets

Xavi • 27250 Tweets

Gunther • 24068 Tweets

Penn State • 22529 Tweets

Bianca • 22242 Tweets

Ohio State • 20347 Tweets

Orton • 18614 Tweets

Mañalich • 18182 Tweets

فيصل بن تركي • 15029 Tweets

Dabo • 13304 Tweets

Vandy • 12744 Tweets

Gators • 11365 Tweets

Başkomutan • 10773 Tweets

Vanderbilt • 10550 Tweets

Icardi • 10049 Tweets

Mertens

Cam McCormick

Varuna Gezgin

Luis Henrique

Metehan

Mertz

Kadir Sağlam

Napier

Virginia Tech

Akron

Jeremiah Smith

Cam Ward

#NapoliParma

#LazioMilan

#تبليك_بدون_تعليق

Last Seen Profiles

@LeahThar

@adam_kurland

@RabbitOwI

@streetfighthard

@CORAVerlag

@TheAISkater

@metasoldier89

@Duarteguif

@officialNwa_ONE

@MahmoudGou43999

@nadialuvscatz

@PLunazul

@DylanSebola

@MsPattiPatti

@samcwl

@VvipShemale

@ringofhonor

@chelsiazeng

@shmaeyox

@tantetante_

Pinned Tweet

動詞

@IMG_5955

3 months

Aesthetic Predictor V2.5を公開しました！画像の美しさを1〜10点で評価することができるモデルで、従来のものに比べ汎用性が高く、写真はもちろんイラストの評価にも強いです。すぐ試せるデモも用意してみたので遊んでみてね‼️ GitHub: Demo:

1

42

103

動詞

@IMG_5955

9 months

LCMのリアルタイム画風変換を33fpsまで高速化できたので、ここまでで高速化に寄与した手法（と微妙だった手法・試していない手法）を記事にまとめました。【LCM】512×512pxの画像を0.03秒でリアルタイム画風変換する｜動詞 #zenn

【LCM】512×512pxの画像を0.02秒でリアルタイム画風変換する

zenn.dev

4

136

428

動詞

@IMG_5955

9 months

自分たちが今開発しているStreamDiffusionのデモを作成しました！動画は実画面のキャプチャです。 StreamDiffusionでは、好きなSDのモデルで動画のようにリアルタイムのtxt2imgができるようになる予定です。

あき先生 / Aki

@cumulo_autumn

9 months

今、動詞さん( @IMG_5955 )とらむねさん( @__ramu0e__ )、そして以前からのメンバーの皆さん( @ddPn08 , @ArtengMimi , @toni_nimono , @hanyingcl )と一緒に公開用のgithubリポと手法等をまとめた論文を作成中です！今週の日曜～火曜日あたりでの公開を目標に頑張っていますので、もう少々お待ちください！

5

63

290

1

89

275

動詞

@IMG_5955

7 months

あらゆる時系列データをDecoder-onlyのモデルにぶっ込んで時系列予測の基盤モデル作る話アイデアからして面白かった

1

25

265

動詞

@IMG_5955

6 months

これすごい有益な記事だったコード例を示しながら、SDXLの省メモリ化・高速化の手法のほとんどを試してどのぐらい効果があったかRTX3090で確認してる CUDAとPyTorchのバージョンの組み合わせだったり、DeepCacheまで試してるのは初めて見た

Ultimate guide to optimizing Stable Diffusion XL

Discover how to get the best quality and performance in SDXL with any graphics card.

www.felixsanz.dev

0

57

255

動詞

@IMG_5955

7 months

この記事めちゃくちゃ面白かった！！ Transformerブロックの中で何が起きてるのかについて、特にFFNに着目して解明しようとした話 self-attnが入力を学習したパターンにマップして、FFNがそれに続く次トークンの方向に"調整"するっていう仮説の説明がかなり分かりやすかった

1

39

251

動詞

@IMG_5955

7 months

GPT-3.5 TurboとTTSとMoviePyを使って全自動でトピックトークするYouTube Short動画を作成するリポジトリ、名前が面白いからウォッチしてるけど、ものすごい勢いでスターが伸びてる

GitHub - FujiwaraChoki/MoneyPrinter: Automate Creation of YouTube Shorts using MoviePy.

Automate Creation of YouTube Shorts using MoviePy. - FujiwaraChoki/MoneyPrinter

github.com

0

29

206

動詞

@IMG_5955

3 months

Stable Diffusion 3、テクニカルレポートがかなり難解で困ってたけど、さっそく知の高速道路が敷設されてる。本当にありがたい…。まずnnablaさんの動画シリーズを見て文脈を理解してから（50分）、 @henatips さんの記事を読めば最短で理解できる

【AI論文解説】Consistency ModelsとRectified Flow ~前置き＆概要編~

次の動画（解説編Part1）：https://youtu.be/tR4dglm6ps4Consistency ModelとRectified Flowに関連する以下の論文を紹介しています。本動画は前置き＆概要編です。資料はslideshareで公開しています（https://www.slideshare.net/...

www.youtube.com

1

27

189

動詞

@IMG_5955

6 months

Stable Diffusion 3、Text EncoderにT5使ってる上にDiTだ！！！！！

AK

@_akhaliq

6 months

Stabillity AI presents Stable Diffusion 3 Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for

8

149

651

1

20

116

動詞

@IMG_5955

4 months

Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

複数のLLM（GPT/Claude3）とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題（TSP）が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。

blog.shikoan.com

0

19

115

動詞

@IMG_5955

9 months

PDFのレイアウトを保ったまま日本語訳するリポジトリをアップデートして、性能を向上させたほか、GradioのWebUIを追加しました！あんまりイケてない部分もありますが、普通に便利なので良かったら使ってみてください！

0

28

113

動詞

@IMG_5955

4 months

ICLRのOutstanding PaperにあったDiffusion Modelsの論文面白すぎる

Generalization in diffusion models arises from geometry-adaptive...

Deep neural networks (DNNs) trained for image denoising are able to generate high-quality samples with score-based reverse diffusion algorithms. These impressive capabilities seem to imply an...

openreview.net

1

9

90

動詞

@IMG_5955

7 months

GPT-4Vでキャプション付けした20万の画像-テキストペアでファインチューニングしてからDPOでアラインさせたモデルを見つけた画像生成モデルの学習もだんだんLLMっぽい作法が持ち込まれてきてる感じする

dataautogpt3/ProteusV0.2 · Hugging Face

huggingface.co

1

17

87

動詞

@IMG_5955

7 months

ただでさえ扱いが簡単なHugging Faceのライブラリ群を更にラップして言語モデルを簡単にFTできるようにしたリポジトリ 50行かそこらでDPOができたり、GPT-4でSynthetic Dataを作成して言語モデルをFTするまでのコードを書けたりする

GitHub - datadreamer-dev/DataDreamer: DataDreamer: Prompt. Generate Synthetic Data. Train & Align...

DataDreamer: Prompt. Generate Synthetic Data. Train & Align Models. 🤖💤 - datadreamer-dev/DataDreamer

github.com

0

12

86

動詞

@IMG_5955

2 months

回転した画像（スマホで横向きに撮られた写真みたいなやつ）の自動修正が必要になったので調べると、SOTAが精度87%とかでメチャ微妙だったのでホンマか❓と思って適当に学習回したら本当にそこで収束してびっくりしたエーアイくんさ、絵とか文章それっぽくやれるのになんでこんな簡単なこと出来ないの

1

15

84

動詞

@IMG_5955

5 months

HuggingFaceが新しく公開したVLMのIdefics2、モデルサイズが8Bなのに、LLaVa-NeXT-34Bよりベンチマーク強いし、ライセンスがApache2.0だし、本当にカタログスペック通りならかなり良さそう

Introducing Idefics2: A Powerful 8B Vision-Language Model for the community

huggingface.co

0

17

80

動詞

@IMG_5955

30 days

Flux.1-schnell、推論速度も品質もただただすごいこんなんがローカルで動かせちゃっていいんだ…って感じだ

1

10

79

動詞

@IMG_5955

6 months

Open Soraのコード読んだ現時点でText Encoderは設計に入ってないのでOpen VocabularyなConditioningはできない雰囲気で、学習データセットはUCF101っぽそう（Kineticsも予定ありっぽい？）コードもデータも計算機も十分じゃないので、ここからみんなで育てていこう感がある

GitHub - PKU-YuanGroup/Open-Sora-Plan: This project aim to reproduce Sora (Open AI T2V model), we...

This project aim to reproduce Sora (Open AI T2V model), we wish the open source community contribute to this project. - PKU-YuanGroup/Open-Sora-Plan

github.com

1

13

75

動詞

@IMG_5955

7 months

SDXLの潜在表現が大きすぎる・小さすぎる値をとることがあり、その場合にピクセルとして表示できずに情報が欠落し、生成品質が下がることがあることを指摘潜在表現に対して単純な操作（正規化・外れ値除去）をすることでそれを回避して、主に色彩面で生成品質を改善する話

Explaining the SDXL latent space

huggingface.co

1

12

63

動詞

@IMG_5955

9 months

技術を頑張ってみて記事書いたりするたびに思うけど、昨今のメジャーなMLタスクで個人が技術をプロプライエタリにして活用方法模索する意味って無い気がする LCM高速化だって、自分がやろうがやるまいが1ヶ月後には結局60fps出るGithubリポジトリが生えてコミュニティが育てていくので、勝ちようがない

1

13

62

動詞

@IMG_5955

7 months

まとまった量のSD/SDXL追加学習Tipsが書いてあるさらっと読んだ感じ、SNR gammaを設定してタイムステップ間の損失を均すことで収束が速くなるって話が特に有益そう

LoRA training scripts of the world, unite!

huggingface.co

0

13

59

動詞

@IMG_5955

1 month

拡散モデルの学習初期に吐き出される画像綺麗すぎるもうここでモデルfixしても良くない？

1

4

52

動詞

@IMG_5955

5 months

単なるDiffusionを使ったImage Editingの論文なんだけど、モデル構築のパイプライン偉すぎてスゲーと思ったらByteDanceの論文だった最近画像生成の論文でByteDanceを見すぎる

0

3

52

動詞

@IMG_5955

3 months

月須和さんのやってるanytest、意識されてるのかされてないのか分からないけど、SimCLRみたいなVision Encoderの事前学習じみてるし、Diffusionを使って誰も成し遂げてない何かをやってる気がするコピー機LoRAもそうなんだけど発想が凄すぎて何本でも国際会議に論文通せそう…

1

10

49

動詞

@IMG_5955

5 months

自己回帰の画像生成モデルだ！

GitHub - FoundationVision/VAR: [GPT beats diffusion🔥] [scaling laws in visual generation📈]...

[GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simp...

github.com

0

7

49

動詞

@IMG_5955

8 months

LCM高速化の記事を書いた後にjoinして、リポジトリの整理にちょっと関わっただけですが、ついでに共著で載せてもらいました！ StreamDiffusionの中身についても、地道なエンジニアリングはもちろん、RCFGみたいなすごい提案手法もあってすごい！関われて楽しかった〜、みなさんお疲れ様です！

あき先生 / Aki

@cumulo_autumn

8 months

大変お待たせしました！本日arXivにて公開された私達の論文「StreamDiffusion」について GitHubリポジトリの方も公開しました！100fps以上出すことも可能です！詳しくは論文、リポジトリのREADMEをご確認ください！ #StreamDiffusion 論文: GitHub:

17

1K

4K

0

13

47

動詞

@IMG_5955

2 months

学習中のVAEが既にSD1.5のVAEよりだいぶ性能良くて気分いい SDXLよりはちょっといいぐらい

0

4

46

動詞

@IMG_5955

9 months

SDXL Turbo速すぎてワロタ（動画は1stepのtxt2img、倍速なし）

2

10

45

動詞

@IMG_5955

6 months

Stable Diffusion 3のTransformer Blockの構造めちゃくちゃ変だな ConditioningのためのCross Attentionと非線形変換のためのSelf Attentionを混ぜたような雰囲気

0

4

45

動詞

@IMG_5955

4 months

LoRAdapter、LoRAのDown出力をアフィン変換するだけでControlNetと同等の条件付けをやっててめちゃくちゃ面白いこれ然りSD3然り、AdaLNやら線形変換やらで上手くやってるの見ると、SD V1アーキテクチャのCrossAttnを使った条件付けはtoo muchだったような気さえしてくる

1

9

43

動詞

@IMG_5955

4 months

Llama3の裏でひっそりとInternVL-Chat-V1.5がリリースされてる！モデルサイズ26Bって多分4bitで余裕を持って24GB VRAMに乗るのでかなりちょうど良い…

OpenGVLab/InternVL-Chat-V1-5 · Hugging Face

huggingface.co

1

6

42

動詞

@IMG_5955

2 months

一生懸命頑張って成果を出しても1年後には技術的優位性が無に帰す世界だし、ハードワークして同僚の間とかSNSでこの人はすごい！と思われても結局5年後には忘れられるので、強くなりたいとか、誰かの役に立ちたいみたいな欲望を上手に抑えて、ちゃんと大切な人と向き合っていきたいよね（自戒）

0

8

40

動詞

@IMG_5955

2 months

「20代は何に代えてでもハードワークして実力をつけた方がいい」説と「結局人生は大切な人との時間が一番大事」説のどちらをとるか毎日迷いまくってて、1週間の中で最大5回ぐらいこの両端を行き来することがある

1

0

38

動詞

@IMG_5955

6 months

W1.58A8のBitNetが持て囃されてLeapMindのW1A2が無視されてるの本当に見せ方ありきだなと思う（BitNetがバズった理由ってタイトルだけ見て全ての計算を1.58bitでやるものだと勘違いした人が結構いたからじゃない？）

1

10

37

動詞

@IMG_5955

4 months

Spellbrush（にじジャーニーの開発元）訪問してきた！秋葉原のホコ天が一望できてメチャいい立地だった

1

6

37

動詞

@IMG_5955

3 months

Omost、LLMとSDXLは一切結合してない（あくまでLLMはリージョンごとのプロンプトを決定しているだけ）のでイラストモデルを使うことも普通にできる

0

5

37

動詞

@IMG_5955

2 months

SD3アーキテクチャのVAEスクラッチ学習やってるけど一生これなので進捗あるのかどうか全然分からん

1

36

動詞

@IMG_5955

3 months

これってStable Diffusion登場当時は学習データを用意する難易度が高くて技術的に無理だった話だけど、今ならVLMでいくらでもこういうデータ用意できるので、全然作れそう（推論のときにAttention弄れば今のSDXLでもある程度出来るし）作るコストに見合うぐらい使いたい人がいるかが問題な気がする

深津貴之 / THE GUILD

@fladdict

3 months

すべての画像生成AI作ってる人に提案したいんだけどさ… タグとか自然言語でラベルつけるより、階層型のマークダウンがJSONでラベルつけたほうが、性能上がらない？？・女の子　・長い髪　　・リボン　・青い目　・セーター　　・ミドリ・犬　・赤い首輪みたいな

9

193

1K

1

5

35

動詞

@IMG_5955

6 months

Hugging Faceから新しく出てきたQuantoってライブラリ、Transformersのモデルをかなり簡単に量子化できる枠組みっぽくてすごく良さそうまだベータだけど発展が楽しみ

Quanto: a PyTorch quantization backend for Optimum

huggingface.co

0

1

34

動詞

@IMG_5955

4 months

ﾜｲﾜｲ

0

33

動詞

@IMG_5955

29 days

ReFlowされてて追加学習の難しいFlux.1 Schnellを商用利用可能にしつつ、蒸留の緩いDevを非商用で公開すると、self hostに興味のないコミュニティはDevで遊ぶはずなので、OSS文化に貢献しながら競合への餌やりを最小化できるっていう目論見だと思ってて、BFLはSAIの失敗ルートを確実に潰してる感じする

2

10

34

動詞

@IMG_5955

9 months

MagicAnimateのControlNetを雑にOpenPoseに置き換えた生成結果動きはするけどウーン…。（ポーズはからお借りしました）

2

13

31

動詞

@IMG_5955

3 months

Phi-3やっぱモデルサイズ比の性能高すぎるこのサイズだとBERTに解けないけどLlama3じゃtoo muchなタスクを解くときにClassifier Headつけて使いたくなるな

0

1

32

動詞

@IMG_5955

2 months

最近テキスト分類やるぞ〜ってなったときに初手でRoBERTaとか使わずにDecoder-onlyの言語モデルの出力層の代わりにClassification Head付けて学習すること増えた気がする BERT選ぶときは動作が軽いモデルが欲しいときだけど、別にそれはEocoderの特性ではないし…（Decoder-onlyとは？）

0

2

31

動詞

@IMG_5955

4 months

今更Claude3 Opus初めて触ったので、せっかくなら凄いことしてもらいたくて、コードが "エレガントでPythonic" になるようにリファクタリングお願いしたら、かなり大胆なアルゴリズムの簡略化が行われてコードがめっちゃシンプルになっておおッスゲェ‼ ってなった、もちろん全く動かなかった

0

1

29

動詞

@IMG_5955

1 month

VLMのSOTAが更新されてる！でっか

OpenGVLab/InternVL2-Llama3-76B · Hugging Face

huggingface.co

0

4

27

動詞

@IMG_5955

7 months

1〜10人までの人数を表す言葉のコサイン類似度をCLIP(ViT-L/14)とT5(large)でそれぞれ見たヒートマップ T5と比較するとCLIPの数の認識の適当さが際立って分かりやすい

1

4

27

動詞

@IMG_5955

9 months

ゆずき @uzuki425 さんによると、RTX4090で45fps出たそうです！やったぜ

動詞

@IMG_5955

9 months

LCMのリアルタイム画風変換を33fpsまで高速化できたので、ここまでで高速化に寄与した手法（と微妙だった手法・試していない手法）を記事にまとめました。【LCM】512×512pxの画像を0.03秒でリアルタイム画風変換する｜動詞 #zenn

4

136

428

1

8

27

動詞

@IMG_5955

1 month

SDXLの最大入力トークン長をめちゃくちゃ拡張して自然な英文でフルファインチューンしてるけど想像より上手くいってて面白いまだ色々適応中なので生成の品質こそ低いものの、テキストへの追従は思ったより進歩してる

1

6

27

動詞

@IMG_5955

3 months

メール見たらSD3のやつ来てた！やっぱり商用利用はライセンス必要っすよね〜〜

1

5

26

動詞

@IMG_5955

29 days

フリータイムで入ったカラオケ内でメモリリークに気づいて苦しんでる（通常、出先でwandbは見ない方がよいとされている）

0

26

動詞

@IMG_5955

3 months

とりにくさん、抹茶もなかさん、まっくすさんのAI手書き支援ツール開発の三人四脚（もしくは開発レース）を見るのが最近すごく楽しい運良く今まっくすさんの手札も見える立場にいるので完全に特等席に座れている

0

4

24

動詞

@IMG_5955

6 months

アーキテクチャに紆余曲折あったDiffusion Modelも結局これになるの感慨深いな

2

5

23

動詞

@IMG_5955

9 months

個人的に、イケイケエーアイの技術を頑張るのは勉強ついでの娯楽として割り切っていて、ついでにGithub / Zennのスターが稼げたり、ひょっとすると、おもしろい人の目に留まったりしてくれないかな？みたいな気持ちでやっています

0

3

24

動詞

@IMG_5955

9 months

論文に注目してもらうためにここまで見た目凝らなきゃいけないのすごい世の中だ

Jinbo Xing

@Double47685693

9 months

Introducing 𝗗𝘆𝗻𝗮𝗺𝗶𝗖𝗿𝗮𝗳𝘁𝗲𝗿! 🤗DynamiCrafter can generate high-dynamic videos by animating open-domain still images using text prompt as addtional dynamic control. 🌊Paper: 🌠Project:

2

22

94

1

6

23

動詞

@IMG_5955

6 months

お？と思ったらOpenAIからの答え合わせではなく、第三者が公になった情報からアーキテクチャを推測する論文だった

Paper page - Sora: A Review on Background, Technology, Limitations, and Opportunities of Large...

huggingface.co

0

7

23

動詞

@IMG_5955

1 month

まだバラさないで欲しかった（いうてPixArtの論文読むと分かっちゃうよな）

小猫遊りょう（たかにゃし・りょう）

@jaguring1

1 month

画像生成AIの学習コストが大幅に低下。ついに数十万円に（Sonyの研究) Stable Diffusion（SD）品質のモデルを約1,890ドル（約29万円）で学習。SDの118分の1。生成画像を学習すると性能向上。3700万枚（実画像＋生成画像）で学習。8 x H100 で2.6日。計算回数は3.45 × 10^20回

0

132

421

0

4

23

動詞

@IMG_5955

9 months

LCMを使って、リアルタイムに変遷していく生成画像にブラシで加筆して直接変化を加えられるWebアプリを作ったプロンプトも都度生成してて、加筆から生まれたピクセルがランダムに形をとりながら停滞せず変化し続けるようになってる実用性ゼロだけどメチャ楽しい

0

10

22

動詞

@IMG_5955

3 months

大規模データの前処理の正解分かった Apache SparkでLazyに読み込んでworkerクラスタにジョブ割り振るとか全部嘘で、データを細かく分割して、分割した分だけEC2インスタンス立てて一発でやるのが一番楽

0

1

22

動詞

@IMG_5955

4 months

Pydanticチームが作った新しいオブザーバビリティツールかなり気になる FastAPIで作ったアプリケーションに1行追加するだけで組み込めるの強い

Uncomplicated observability | Pydantic Logfire

Logfire is a new type of observability platform built on the same belief as Pydantic — that the most powerful tools can be easy to use.

pydantic.dev

0

4

21

動詞

@IMG_5955

2 months

T2Iモデルの事前学習で品質を上げるテクニックとして、密かに思いついて実行してたこととほぼ同一の内容がKuaishouのKolorsのテクニカルレポートに書いてあって笑ってしまった同じ時代でほぼ同じ課題を解こうとする人間、よほどの天才以外は似たようなことを同時に思いつくので隠す意味なんか無いな

2

21

動詞

@IMG_5955

6 months

StableCascadeのStageBをSDXL/SD1.5系列のモデルに置き換えるComfyUIのワークフロー StageCの出力の扱いがかなり強引だけど、結果は壊れてない…。

From the StableDiffusion community on Reddit: Cascade at Home: Replacing Stage B with SDXL and 1.5...

Explore this post and more from the StableDiffusion community

www.reddit.com

0

5

19

動詞

@IMG_5955

4 months

大人って善意だけで何かを供与することをしないので、ほぼ確実に供与による将来的な利得（必ずしも金銭ではない）を期待してるはずなんだけど、AIの人って本気で善意っぽい人が多いの、良いな〜とは思いつつ、今いる人が全員善人だとしても、今後悪い大人が入り込みやすい環境が生まれる気もする

2

1

20

動詞

@IMG_5955

4 months

金になるエーアイ領域がデカい企業に叩き潰されるのを見るたび、画像生成とかいうなんか全然金にならないし大した必要性もない、強いて言えばちょっと面白いぐらいの分野にいて良かったな…😌とちょっとホッコリする自分がいる

0

1

19

動詞

@IMG_5955

6 months

Speculative DecodingみたいなLLMの推論高速化手法をTransformersがサポートするモデル（多分AutoModelForCausalLMに属するもの）で気軽に使えるようにしたリポジトリ

GitHub - MDK8888/GPTFast: Accelerate your Hugging Face Transformers 7.6-9x. Native to Hugging Face...

Accelerate your Hugging Face Transformers 7.6-9x. Native to Hugging Face and PyTorch. - MDK8888/GPTFast

github.com

0

4

19

動詞

@IMG_5955

3 months

需要があるか謎ですが、Aesthetic Predictor V2.5のComfyUIカスタムノードを一応作成しました。画像のように使えます。

0

4

19

動詞

@IMG_5955

3 months

RB Modulation、参照スタイルを入力するだけ（追加学習なし！）で画像のスタイル変換ができるっていう凄い触れ込みだったので論文見たら、代わりに拡散モデルを普通の4〜5倍も評価するらしい… 推論がメチャ遅くなるので実用は難しそうだけど、手法自体は斬新で面白かった！！

1

17

動詞

@IMG_5955

1 month

Scaling Diffusion Transformers to 16 Billion Parameters

1

4

17

動詞

@IMG_5955

4 months

GPT-4oの性能確認ついでに、CVPR2024のAccepted Paperのうち、既にarXivに上がっているものの日本語要約を、タグとの一致度で検索できるWebアプリをHugging Face Spacesに上げてみました！ぜひ見てみてください〜 Hugging Face Space:

1

8

17

動詞

@IMG_5955

6 months

これ個人的にアツい

0

1

17

動詞

@IMG_5955

3 months

学習終了まであと75年！？

1

0

16

動詞

@IMG_5955

2 months

Kolors、HFのタグでApache2.0付けてておおっ！と思わせてからのREADMEで独自規定あるパターンで泣いた😭😭 最近画像/動画生成モデルにコレ系多くない？

0

1

16

動詞

@IMG_5955

3 months

RegionalにPromptingして精緻に画像生成したい❗🤩 ← わかるでも精緻に書こうとするほどPromptの入力コストが高い😔 入力フォーマット決めるのもムズい😖 ← わかるだからLLMのコーディング能力とPythonの言語機能をExploitしてLLMに簡単な指示から書き起こさせよう‼️🤩🥰 ← この発想力何❓

0

4

16

動詞

@IMG_5955

3 months

初めてのDiffusion Transformerスクラッチ学習の記念すべき最初のバリデーション結果出た❗

0

16

動詞

@IMG_5955

25 days

Transformerで使うPositional Embeddingのこと最近全然追ってないけどRoPEである程度決着ついたのかな

1

0

16

動詞

@IMG_5955

3 months

最近オープンソースで性能のいい画像生成モデルがポンポン出てきててすごいな〜と思ったけど、Llama公開からずっとオープンソースの開発競争が起きてるLLMと対比するとStabilityAI製のモデルの人気独占が1年半以上続いたことの方がすごかったかも

0

6

16

動詞

@IMG_5955

3 months

もうちょい試して性能良さげならAesthetic Predictor V2.5とか名付けて公開しようと思います！今までイラストと写真両方に強いオープンのAesthetic Predictorはあんまり無かったので、データ選定に苦労することが多かったけど、これを使えば画像データセットの前処理をだいぶ効率化できるはず

動詞

@IMG_5955

3 months

Aesthetic Score Predictor なかなか良くなってきた気がする

1

0

11

1

2

16

動詞

@IMG_5955

1 month

SDXLのフルファインチューンが40GBのA100で回らなかったので、今になって考えるとGaLoreを試す良い機会だったんだけど、昨日の自分は躊躇なく48GB↑のGPUを使うことを選択してしまった "老い"が来てる

2

0

15

動詞

@IMG_5955

4 months

生成AIなんでも展示会すげ〜楽しかったのでかなりモチモチし*てきた新年度の変化落ち着いてきたのでそろそろ外向けの進捗出したいな *: モチベーションが高まること。また、そのさま。

0

15

動詞

@IMG_5955

2 months

This histogram shows scoring results of CommonCatalog CC-BY and Megalith-10M subsets using Aesthetic Predictor V2.5. Actually, Megalith is much better than CC. While CC left-skewed, Megalith has a long tail extending to the right, containing many aesthetically pleasing images.

2

15

動詞

@IMG_5955

7 months

Transformersのv4.37.0、破壊的変更すぎるたった一つ前のv4.36.2で動くコードが普通に動かなくなったのえぐい

0

1

14

動詞

@IMG_5955

3 months

今までanytestがヤバいのがいまいちバレてなかったことを後方彼氏面オタクよろしく喜んでたんだけど、バレた（当然）ので勝手に一人で悲しんでます

0

2

14

動詞

@IMG_5955

3 months

初めてのフルマラソン、とりあえず完走が目標だったので序盤は関門通過ギリのペースで走ってたけど、意外と行けるかも？と思ってペース上げたらメチャキツかったけど5時間切りで完走できた！！嬉しい！！ 7ヶ月前にランニング始めたときは1km走るのも必死だったけど、コツコツ努力してきて良かった💪💪

2

0

14

動詞

@IMG_5955

3 months

これ、Guided Diffusionの1つの進化形だと思ってて、評価回数こそ増えるもののPCMとかHyperSD使えばまあ耐えられない訳ではない推論速度だと思うので、かなり興味ある実装公開されたら色々弄ってみたい…！

動詞

@IMG_5955

3 months

RB Modulation、参照スタイルを入力するだけ（追加学習なし！）で画像のスタイル変換ができるっていう凄い触れ込みだったので論文見たら、代わりに拡散モデルを普通の4〜5倍も評価するらしい… 推論がメチャ遅くなるので実用は難しそうだけど、手法自体は斬新で面白かった！！

1

17

0

2

14

動詞

@IMG_5955

2 months

ツイートで驚き屋をやる能力がないので、驚きが上手な方に自分なりの全力驚きツイートを添削してもらったら、自分じゃ一生かかっても考えつかなかったような驚きフレーズのアイデアをもらえて本当に感心したことがある

0

13

動詞

@IMG_5955

3 months

拡散モデルベースのTalking Head、条件付けはなんぼあっても良いですからねみたいな世界観になってきてる

0

14

動詞

@IMG_5955

3 months

学習済みのSDにセマンティックな情報が詰まってるのはそこそこ知られてるけど、追加のネットワーク（LoRA、CN）で情報の引き出し方を学習することでかなり色々できることまではまだ理解されかけみたいな段階だったと思う

1

2

14

動詞

@IMG_5955

2 months

Gemma2の日本語性能高そう、DiTのテキストエンコーダーに使おうかな ↑ ライセンスがね… Llama3の日本語継続学習モデルすごそう、DiTのテキストエンコーダーに使おうかな ↑ ライセンスがね…

0

14

動詞

@IMG_5955

9 months

LCM-LoRAを長く学習したらtxt2imgの品質が3stepsでもそこそこ良い感じになった

1

0

14

動詞

@IMG_5955

4 months

今日はこれ観に行く

生成AIなんでも展示会｜IT勉強会・イベントならTECH PLAY［テックプレイ］

2024/04/21（日）開催生成AIを使った制作が見れて触れる展示イベント

techplay.jp

1

0

13

動詞

@IMG_5955

2 months

キタ〜と思いつつダウンロードURLしかデータレコードに載ってない今拡散するとFlickrに負荷かかりそうで言及するのやめたやつだ作者曰く、キャプション他のメタデータを付与した後に実画像入りのデータセットを後日公開予定だそう

あるふ

@alfredplpl

2 months

お、CC-0相当の画像データセット1000万枚がきた！

2

44

162

0

5

13

動詞

@IMG_5955

8 months

- Twitterの通知をオフにして通知欄を一切見ない - 拡張機能でRT、いいね数を不可視化 - "For You"を不可視化をやって3ヶ月ぐらい経つけど、Twitterから与えられる正の報酬も負の報酬もほぼゼロになってかなり良い（良すぎてあんまり見なくなった）

1

0

12

動詞

@IMG_5955

3 months

Rectified Flowが出てきてくれたことで理解までの文脈が長すぎるScore-based Generative Modelの流行りは終わる（事前知識が最適輸送の話だけで済むようになる）のかと思ったけど、Consistency Trajectory ModelからのPhased Consistency Modelで更に文脈がヤバくなってきてるどこまで行くんだ

1

0

13

動詞

@IMG_5955

26 days

エーアイでは生成できないものを摂取してきた