プロンプトを拡張するカスタムノード｜Stable Diffusion｜Blog

Stable Diffusion 2025.12.27

自分でプロンプトつくるのは難しいです

詳細なプロンプトを書くのは難しい

　以前からLLMと連携して画像や日本語の文章からプロンプトを生成することはやっていたのですが，ずっと同じものを使っていたこととZ-Image用のカスタムノードが紹介されていたのでこの機会に新しくすることにしました。
今回は3つのカスタムノードについて，画像からプロンプトを生成する速度とそのプロンプトを使って画像を生成したサンプルを比較してみました。
元画像はPony系モデルで生成した下の画像を使用し，LLMは比較的軽量なqwen3-vl:4b-instructを使って「Please output a detailed prompt in English to generate this image. Please do not output anything other than the prompt. 」という指示をしています。
詳細なプロンプトを使うとよりテンションが上がる画像が生成できるかなと期待しています。

この画像からプロンプトを生成してみました

ComfyUI-Ollama

　以前から使っているComfyUI-Ollamaを新しいバージョンにアップデートしました。
利用するLLMの変更ができなくなっていた問題は，設定用のノードに入力しているURL（http://127.0.0.1:11434）に/を加えることで解決しました。（古いバージョンでもできました）
新しいバージョンはOllama GenerateノードにOllama ConectivityノードとLoad Imageノードを接続してやると日本語の文章や画像からプロンプトを生成することができます。

プロンプトの生成時間は平均8.06秒で，どちらかというと背景が詳細なプロンプトになっている印象です。

A beautiful young Asian woman with long, dark brown hair styled in two neat ponytails, wearing a crisp white blouse with a large bow at the collar and a dark navy pleated skirt, standing in a bright, clean classroom. She is smiling gently at the camera with a warm, friendly expression, her eyes bright and expressive. Behind her is a green chalkboard with some faintly written mathematical equations in white chalk, including "E=mc²" and "F = ma", suggesting a physics or math lesson in progress. The lighting is soft and natural, highlighting her features and the fabric of her clothing. The background includes a light beige wall and the edge of a white window frame, adding to the serene, educational atmosphere. The image is a high-resolution, photorealistic portrait with a shallow depth of field, focusing on her face and upper body while softly blurring the background elements. The overall aesthetic is clean, elegant, and charming.

長くダークブラウンの髪をすっきりとしたポニーテールにまとめた美しい若いアジア人女性が、襟に大きなリボンが付いた清潔感のある白いブラウスとダークネイビーのプリーツスカートを羽織り、明るく清潔な教室に立っています。彼女は温かく親しみやすい表情でカメラに向かって優しく微笑み、瞳は明るく表情豊かです。彼女の背後には緑色の黒板があり、白いチョークで「E=mc²」や「F=ma」といった数式がかすかに書かれており、物理か数学の授業が行われていることを示唆しています。照明は柔らかく自然なもので、彼女の顔立ちと服の生地を際立たせています。背景にはライトベージュの壁と白い窓枠の縁があり、穏やかで教育的な雰囲気を醸し出しています。この画像は、浅い被写界深度で彼女の顔と上半身にフォーカスを当て、背景を柔らかくぼかした、高解像度の写実的なポートレートです。全体的な美的感覚は、清潔感があり、エレガントで、魅力的です。

ComfyUI-AI-Photography-Toolkit

　画像からZ-Image-Turbo用のプロンプトを生成するカスタムノードということで試してみました。

【ComfyUI】ComfyUI-AI-Photography-ToolkitをOllamaで使う方法｜aiaicreate

LLMはインストールしているOllamaを使うことができました。SID Z-Image Prompt GeneratorノードにSID LLM APIノードとLoad Imageノードを接続してやるとComfyUI-Ollamaと同じように使うことができます。SID LLM APIノードで利用するLLMを指定するのですが，名前を直接入力する必要がありました。最初，qwen3-VL:4bをLLMとして使っていたときにプロンプトが出力されないことがありましたが，qwen3-vl:4b-instructに変更したところ動作するようになりました。
プロンプトの生成時間は平均9.96秒で，人物についての描写が詳しくプロンプトになっています。t2iのワークフローに組み込んだところ，生成に結構時間がかかるのでプロンプト生成部分だけ別にしてCopy&Pasteで画像生成することにしました。

A medium close-up at eye level of a young East Asian woman in her late teens, visible from head to waist with frame cutting at mid-thigh, subject fills center of frame positioned in center third horizontally and center third vertically, front view, fair porcelain skin tone, long dark brown hair styled in two low pigtails secured with white ribbons, gentle warm smile with bright brown eyes, defined cheekbones, smooth skin texture, subtle makeup enhancing natural features, wearing crisp white satin blouse with high collar and large bow at neckline, navy pleated skirt partially visible, left shoulder slightly forward, right shoulder relaxed, left arm bent with hand resting lightly on hip, right arm relaxed at side, soft highlights on forehead, nose bridge, and upper cheekbones with soft shadows under eyes and along jawline, even, diffused daylight illuminating face and upper body from front-left, creating gentle gradient of light across chest and arms, shallow depth of field, off-white wall background with green chalkboard in upper right corner bearing faint white chalk writing, no text, no watermark

10代後半の若い東アジア系女性の目の高さでのミディアムクローズアップ。フレームは太ももの真ん中でカットされ、頭から腰までが写っている。被写体はフレームの中央を占め、水平方向に中央3分の1、垂直方向に中央3分の1に配置され、正面から撮影されている。肌は白く陶器のような色で、長く暗い茶色の髪を低い位置で二つにまとめ、白いリボンで留めている。優しく温かみのある笑顔に明るい茶色の目。頬骨がはっきりしていて、肌の質感は滑らか。自然な特徴を強調する繊細なメイクアップ。ハイカラーでネックラインに大きなリボンが付いた、パリッとした白いサテンのブラウスを着ている。ネイビーのプリーツスカートが部分的に見えている。左肩が少し前に出ていて、右肩がリラックスしている。左腕は曲げられ、手は軽く腰に置かれている。右腕は体の横にリラックスしている。額、鼻梁、頬骨の上部に柔らかなハイライトがあり、目の下と顎のラインに柔らかな影がある。正面左から顔と上半身を均一に拡散した日光が照らし、胸と腕に柔らかな光のグラデーションを作り出している。被写界深度は浅く、オフホワイトの壁の背景に、右上隅の緑の黒板にうっすらと白いチョークで書く、テキストなし、透かしなし

Comfyui-Z-Image-Utilities

　こちらは文章のプロンプトを拡張するカスタムノードです。上記２つのカスタムノードと同じで

Z-Image Prompt EnhancerノードにZ-Image API ConfigノードとLoad Imageノードを接続すればOKのようです。画像からもプロンプトを生成することができます。

【ComfyUI】LLMでプロンプトを拡張できる「Comfyui-Z-Image-Utilities」｜aiaicreate

プロンプトの生成時間は平均5.13秒で軽快に動作します。生成されるプロンプトはComfyUI-Ollamaと近い感じです。下のプロンプトはやや短いですが，生成を繰り返すと長いプロンプトになることもあります。

A young woman with long dark brown hair styled in two pigtails, each tied with a white hair tie, stands in a classroom. She is wearing a crisp white blouse with a large bow at the collar and a navy blue pleated skirt. She smiles warmly at the camera, her expression friendly and approachable. Behind her, a green chalkboard is mounted on the wall, with white chalk writing visible: "E=mc²" and "Li's cung". The lighting is soft and natural, illuminating her face and the classroom setting. The background is minimalistic, with neutral-colored walls and a clean, organized classroom environment. The focus is sharp on the subject, with a shallow depth of field blurring the background slightly.

教室には、ダークブラウンの長い髪を二つに束ね、それぞれ白いヘアゴムで結んだ若い女性が立っている。襟に大きなリボンが付いた、パリッとした白いブラウスと、紺色のプリーツスカートを羽織っている。カメラに向かって温かく微笑みかけ、親しみやすく近寄りがたい表情をしている。彼女の背後の壁には緑色の黒板が取り付けられており、白いチョークで「E=mc²」と「Li's cung」と書かれている。柔らかく自然な照明が、彼女の顔と教室の雰囲気を照らしている。背景はミニマルで、ニュートラルカラーの壁と清潔で整然とした教室環境が広がっている。被写体にピントが合っており、浅い被写界深度によって背景がわずかにぼかされている。

サンプル画像です

　上記のプロンプトでZ-Image-Turboを使って生成した画像です。モデルはCyberRealistic Z-Image Turboを使っています。

ComfyUI-Ollama

ComfyUI-AI-Photography-Toolkit

Comfyui-Z-Image-Utilities

人物の髪型や服装については3つとも元画像と同じ感じになっています。今回は人物についての描写が詳しいComfyUI-AI-Photography-Toolkitが一番いい印象ですが，人物についてより詳しいプロンプトを生成するように指示をすれば変わるかもしれないです。また，利用するLLMによっても変わると思うので，いろいろ使って検証したいです。