Z-Image-Turbo　LLMでプロンプト生成｜Stable Diffusion｜Blog

Blog

Z-Image-Turbo　LLMでプロンプト生成

Stable Diffusion 2025.12.07

プロンプトって重要なんだと改めて思いました

Z-Image-Turboの印象

　Z-Image-Turboを使い始めて，主に今まで使っていたプロンプトを使って画像生成テストをしましたが，プロンプトの内容を反映した画像を生成する印象です。うまく反映されないこともあったので，プロンプトの作り方が重要だと感じています。
生成される画像はリアルで最近使った新しい画像生成AIの中ではWan2.2と同じくらい好みの画像が出てくる印象です。それでいて，Wan2.2よりもかなり速く画像が生成できるので私の環境では今後メインで使うことになる可能性が高いです。

Web上の情報を参考にプロンプトを作る

　こちらのWebサイトの記事がとてもわかりやすかったので参考にしながらプロンプトを作成することにしました。記事中で紹介されている

[撮影タイプ] of [被写体の詳細] + [服装・アクセサリー] + [メイク・髪型] + [表情・ポーズ] + [背景・環境] + [ライティング] + [カメラ・レンズ] + [スタイル] + [解像度]

という流れでプロンプトを作ることにしました。もちろん日本語で作成します。

Z-Image-Turboは日本語のプロンプトも大丈夫なようですが，英語の方がいいだろうと考えてLLMで英語に変換してもらって画像を生成しました。

サンプル画像です

　Close-up portrait of an 18-year-old Japanese woman sitting on a park bench by the seaside at dusk. She is wearing a white knit sweater emphasizing her bust, a light pink flared skirt, and a gold pendant. Natural makeup, high ponytail hairstyle, smiling and making a heart shape with both hands towards the camera. 150cm tall, slender build, beautiful face, large eyes, and noticeable bust. A well-maintained park with a lawn. Soft evening sunlight illuminating her face, creating a dreamy atmosphere. Shot with Fujifilm X-T5 and 56mm f/1.2 lens, film-like colors, soft pastel tones, high resolution, detailed depiction.

A portrait of an 18-year-old Japanese woman sitting on a bench in a seaside park at dusk, upper body shot. She's wearing a light purple blouse emphasizing her bust, a grey checked skirt, and a gold pendant. Natural makeup, half-up hairstyle, waving hand and smiling at the camera. A well-maintained park with a lawn. Soft evening sunlight illuminates her face, creating a dreamy atmosphere. Shot with Fujifilm X-T5 and 56mm f/1.2 lens, film-like colors, soft pastel tones, high resolution, detailed depiction.

シチュエーションはほぼ同じで人物のプロンプトを変更して生成しています。1枚目はクローズアップポートレートとしているので背景がぼけています。2枚目はLLMが生成したプロンプトはwaving and smilingとなっていて，最初は手を振ってくれませんでした（wavingは髪型に反映されていました）ので，wavingのあとにhandを入れたところ，手を振ってくれました。
どちらもプロンプトを反映した画像になっていて好印象です。しばらくこの方法で試行錯誤してみようと思います。

ワークフローを少し変更しました

　前回のBlog記事を公開後，こちらのWebサイトで，モデルをFP8形式，テキストエンコーダーをGGUF形式で使っても生成速度は変わらないのでおすすめという情報をみました。私のワークフローはモデルはGGUF形式でテキストエンコーダーが通常版という構成でした。GGUF形式のテキストエンコーダーを読み込むノードがエラーを出したので通常版にしていたのですが，ノードをアップデートすることでエラーが出なくなりました。
実際に試してみたところ，モデルとテキストエンコーダーの組み合わせを変えても生成時間はほぼ同じでしたので，現在はモデルをFP8形式，テキストエンコーダーをGGUF形式に変更しています。