Z-Image-TurboでControlNet｜Stable Diffusion｜Blog

Blog

Z-Image-TurboでControlNet

Stable Diffusion 2025.12.16

ControlNetを使うのはSD1.5以来です

速いペースで環境整備されています

　Z-Image-Turboがリリースされてもうすぐ3週間になりますが，Web上でZ-Image-Turboを取り上げている記事も増えました。LoRAの学習環境も整い，CivitaiにはたくさんのLoRAがリリースされています。どれを使っていいかわからないので，いつも参考にしている西川和久さんのXでおすすめされているものを試してみようと考えています。
Checkpoint（モデル）も少しずつ出始めています。私の環境ではFP8モデルでないと厳しいのですが，先日試したZ-Image Turbo FP8 [Kijai]は好印象でした。
ControlNetも最近使えるようになったようで，最近紹介記事が増えてきたので以下の記事などを参考にして試してみることにしました。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第56回：2025年秋の陣Part 2は高速無検閲のZ-Image-Turbo（西川和久） | テクノエッジ TechnoEdge

ワークフロー作成

　手間がかかるかなと思っていた環境設定ですが，Web上の情報を調べて，必要なモデルとカスタムノードをダウンロードしていくつかのノードを配置するだけと思ったよりも簡単でした。
ControlNetは以前使っていたDepthを使うことにし，元画像から深度情報を出力するだけでなく，画像を生成する際のプロンプトをLLMで生成することにしました。最初の1枚は2分程度の時間がかかりますが，2枚目以降は高速化されるのでこれでいいかなと考えています。

サンプル画像です

　今回は元画像にSD1.5やPony系モデルで生成した画像を使いましたが，Z-Image-Turboテイストになってリアル感がでている画像になりました。
拡大すると画像が荒れているように感じることやときどき「何だこりゃ？！」という画像を生成することもありますが，久しぶりにControlNetの破壊力を実感することができました。t2iではなかなか生成できない画像もあるので，ControlNetを活用すると生成される画像の幅が広がるかなと感じています。

元画像です

ControlNetで生成した画像です

元画像です

ControlNetで生成した画像です

元画像です

ControlNetで生成した画像です

（追記）ControlNetで生成した画像が荒れた感じになる件について

　普通にt2iで生成した画像はきれいだったので，気になって最初に参考にしたワークフローの画像をチェックしたところ，ModelSamplingAuraFlowノードとQwenImageDiffsynthControlnetノードの接続順が逆になっていて，さらにQwenImageDiffsynthControlnetノードの強度が1.0と強すぎたのが原因のようです。接続順を入れかえて強度を参考画像と同じ0.6にして画像を生成したところ，きれいに生成できるようになりました。QwenImageDiffsynthControlnetノードの強度は高くするほど元画像に近い構図になるようですが，同時に画像が荒れた感じになります。
ということで，記事中のワークフローのスクリーンショットとサンプル画像をそれぞれ変更しています。