Z-Image-BaseのテキストエンコーダをLLMとして使う(2)｜Stable Diffusion｜Blog

Stable Diffusion 2026.04.01

少ないメモリでプロンプト生成機能が使え，サクサク画像生成できます　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

システムプロンプトを活用

生成AIグラビアをグラビアカメラマンが作るとどうなる？第62回：ComfyUIの複雑な生成画面をスッキリさせるApp modeとちょっと面白いWorkflow（西川和久） | テクノエッジ TechnoEdge

生成AIグラビア実践ワークショップ、次回は「ComfyUIを簡単にしてくれるApp mode」をテーマに3月19日開催。テクノエッジアルファ会員なら無料 | テクノエッジ TechnoEdge

　前回，上記の記事を参考にして画像を生成しました。テキストエンコーダをLLMとして使うためにインストールしたText Gennerate Qwen3 Promptというカスタムノードには，テキスト入力欄が2つあります。上段はユーザープロンプトで生成する画像の内容を入力します。下段はシステムプロンプトでプロンプトを成型するための指示を入力します。

デフォルトではYou are a professional image generation prompt expert. Output in English.と入力されているのですが，ここに入力する内容を変更することで，生成されるプロンプトをコントロールすることができるようです。
上記参照記事の中では「iPhoneで素人撮った風System Prompt」のリンクがあります。他にも作者様のXのポストには「素人が撮ったスナップ写真風System Prompt」（コンセプトは同じだと思います）も公開されていました。

Photogenic Weekend on Twitter / X

私は後者のシステムプロンプトを使って画像を生成してみました。

推奨設定では生成時間が…

　まずは，Xのポストや参照動画で解説されていたようにText Gennerate Qwen3 Promptノードのmax_lengthを1,024，enable_thinkingをtrueにして画像生成したところ，最初の1枚は15分以上かかりました。

シード値の生成後の制御をfixedにしておけば2枚目以降は30秒台で生成できますが，生成される画像のテイストは同じ感じになります。

max_length=1,024のサンプル画像です

さすがにこれでは実用的ではないので半分の512にしたところ，生成時間も半分の8分台になりました。

max_length=512のサンプル画像です

生成に時間がかかりますが，シード値の生成後の制御をfixed以外にしておけばいろいろなバリエーションのいい感じの画像を出力してくれます。max_lengthの値を下げれば生成時間は短くなりますが，生成されたプロンプトを確認したところプロンプトの成型が途中で終わっていました。上記の512の画像もプロンプト成型は途中で終わっていたのでやはり推奨設定の1,024は必要なようです。

enable_thinkingを比較する

　enable_thinkingをfalseにすれば，max_length=256でもプロンプト成型は完了していて画像も2分台で生成できました。trueの場合とfalseの場合でどのような違いが出るのか，プロンプトと画像で比較してみました。

enable_thinking=falseの場合

（プロンプト）

A candid photo of a young Japanese woman with long black hair tied in a high ponytail, wearing a light pink kimono and white socks, walking along a cherry blossom-lined path in a quiet café. Soft diffused sunlight filtering through the trees, creating gentle shadows. She is wearing white socks and holding a small cup of matcha. The background shows scattered cherry blossoms and a few tables with empty cups. Tilted angle slightly low, mild motion blur on her lower half, and subtle JPEG compression artifacts on the edges. Casual snapshot feel with natural imperfections.

長い黒髪を高い位置でポニーテールに結んだ、淡いピンクの着物と白い靴下を身に着けた若い日本人女性が、静かなカフェの桜並木道を歩いている様子を捉えた自然な写真。木々の間から柔らかな日差しが差し込み、優しい影を作り出している。彼女は白い靴下を履き、小さな抹茶のカップを持っている。背景には散りばめられた桜の花と、空のカップが置かれたテーブルがいくつか見える。やや下からのアングルで撮影されており、下半身にわずかなモーションブラー、端に微妙なJPEG圧縮ノイズが見られる。自然な不完全さが感じられる、カジュアルなスナップ写真のような雰囲気。

（画像）

（生成時間）2分34秒

enable_thinking=trueの場合

（プロンプト）

A candid photo of a young Japanese woman with medium-length black hair and a soft smile, sitting on a park bench under cherry blossom trees. She is drinking from a plastic sake cup while resting her elbow on the wooden surface. Bright overcast lighting with soft shadows across her face. She is wearing a pastel pink sundress and casual sandals. The background shows scattered cherry blossoms and distant pedestrians passing by. [Imperfections: slight motion blur around her hand, subtle tilt towards the camera, mild overexposure on her face]. Casual snapshot feel with natural imperfections.

桜の木の下の公園のベンチに座り、柔らかな笑顔を浮かべた、ミディアム丈の黒髪の若い日本人女性の自然な姿を捉えた写真。彼女は肘を木製のベンチに置き、プラスチックの酒器で酒を飲んでいる。明るい曇り空の光が彼女の顔に柔らかな影を落としている。彼女はパステルピンクのサマードレスとカジュアルなサンダルを身に着けている。背景には散りばめられた桜の花と遠くを行き交う歩行者が見える。[欠点：彼女の手の周りにわずかなブレ、カメラに向かってわずかに傾いている、顔にわずかな露出オーバー]。自然な欠点のある、カジュアルなスナップ写真のような雰囲気。

（画像）

（生成時間）7分55秒

　max_lengthとenable_thinking以外の設定は同じ状態で画像を生成しました。プロンプトを比較すると詳細は異なりますが，人物の髪型，服装，様子，背景の描写，画像の状態が記載されているのは同じように感じました。プロンプトの分量も同じくらいでした。
trueとfalseの違いは今回の検証ではよくわかりませんでした。生成される画像の違いがわからないのであれば，私の環境ではmax_length=256，enable_thinking=falseで利用するのがよさそうです。