FLUX.1のワークフローを見直す｜Stable Diffusion｜Blog

Blog

FLUX.1のワークフローを見直す

Stable Diffusion 2025.02.16

アイキャッチ画像はPony系モデルですが，内容はFLUX.1です

まずはGGUFモデルを使ってみる

　FLUX.1の環境設定について，以下のWebサイトを参考にして省メモリで動作可能なGGUFモデルを使ったワークフローを使ってみることにしました。

モデルはこちらからflux1-dev-Q4_K_Sを，テキストエンコーダーはこちらからt5-v1_1-xxl-encoder-Q4_K_S.ggufをダウンロードして，それぞれunet，CLIPフォルダに配置しました。
ワークフローは参考サイト②の通りに作成して，画像生成してみました。832×1216ピクセル，20stepsで最初の1枚が90秒台，2枚目以降は70秒台後半の生成時間でした。

Comfy-WaveSpeedを組み込む

　次に，Comfy-WaveSpeedのノードを追加して高速化テストをしました。最初の1枚は90秒台でそれほど変わりませんでしたが，2枚目以降は40秒台前半とほぼ2倍速で生成できました。1枚40秒なら十分速いと感じました。

なかなかいい感じです

ちょっとアニメ調ですが好みの感じです

他のモデルを使ってみる

　これまでもいくつかのFLUX.1モデルを使っていたのですが，GGUFモデルはなかったので，あらためて3つのモデルをインストールしてテストすることにしました。今回インストールしたモデルはどれも6.5GB程度なので，サイズ的にはPony系モデルと変わらないくらいです。

Shuttle-Mixes

こちらの記事でおすすめされていたSchnellモデルです。Q4_K_Mをインストールしました。生成時間は16秒台でさすが4stepsという感じですが，生成された画像はShnellモデル特有の肌の色が今一つという感じです。紹介記事には肌色がいいLoRAを使うとよいとあったのでLoRAを組み込んだところ，印象が変わっていい感じになります。生成時間は20秒台前半です。適用するLoRAの影響はあるかと思いますが，いい感じになりました。

LoRA適用量は0.4です

20秒台前半で生成できるのは魅力的です

2758 - Flux Asian Utopian

上記の記事でSchnellモデルがおすすめされていましたが，インストールしたのはdevモデルのQ4_0です。生成時間は最速30秒台後半でいい感じの画が出ますが，20stepsでは今一つの印象で25stepsにすることでよくなる感じがしました。（生成時間は40秒台前半）
あとは手指の生成が崩れがちでした。この点はFLUX.1でも苦手なようです。

20stepsで生成，ちょっと指が変ですが…

25stepsで生成した方がいい感じの画が多い気がしました

Flux Fusion V2

devモデルですが，4stepsで生成できるので気になっていたモデルです。Q4_K_Sをインストールしました。4stepsだと最速15秒台で生成できてとても速いのですが，今一つの印象でした。8stepsにすると生成時間は20秒台後半になりますが，いい感じの画が生成されます。LoRAを使うのもありかなと思います。

8stepsの方がいい感じでした

さらにLoRA0.4追加でいい感じに

ワークフロー再構築の第1段階は終了

　今回テストしたモデルの中では，意外に本家flux1-dev-Q4_K_Sがよいことがわかりました。2758 - Flux Asian Utopianは当たり外れが大きい感じですが，もっと研究して使えるようにしたいです。Schnellモデルは今回久しぶりに使いましたが，高速生成できるのでLoRAを使って活用したいですね。
今回はGGUFモデルでFLUX.1を使いました。20～40秒台の時間で画像が生成されたのでこれからはFLUX.1をもっと使おうと思います。
次は既存のfp8モデルを使えるようにしたいと考えています。できれば1つのワークフローにまとめたいのですが，どうなることやら…