Z-Image-BaseのテキストエンコーダをLLMとして使う

これでメモリ節約につながるそうです

プロンプト生成用のLLMが不要になる

 以前の記事に書いていますが,私が使っているComfyUIのワークフローにはLLMと連携したプロンプト生成機能を実装しています。しかし,画像生成用のモデルやテキストエンコーダとは別にLLMを用意するので,メモリには厳しくなります。
今回,下記の参照記事と動画を見て試した方法は画像生成に使うテキストエンコーダをプロンプト生成用のLLMとして活用しようというものです。別途プロンプト生成用のLLMを読み込まなくていいので,省メモリ化につながるそうです。メモリが厳しい環境で画像生成AIを使っている私としては興味津々でチャレンジしてみました。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第62回:ComfyUIの複雑な生成画面をスッキリさせるApp modeとちょっと面白いWorkflow(西川和久) | テクノエッジ TechnoEdge

生成AIグラビア実践ワークショップ、次回は「ComfyUIを簡単にしてくれるApp mode」をテーマに3月19日開催。テクノエッジ アルファ会員なら無料 | テクノエッジ TechnoEdge

使えるようになるまで

 まず,テキストエンコーダをLLMとして使えるようにするカスタムノードをインストールします。私は作者様のGithubサイトからダウンロードしましたが,普通にComfyUI Managerからインストールできるようです。
ノードの配置は簡単で,テキストエンコーダの出力をカスタムノードの入力につなぎ,カスタムノードの出力をポジティブプロンプトの入力につなげば完了です。

ss.jpg

早速画像生成してみましたが,何故か途中でエラーが出てうまくいきませんでした。色々調べてみてComfyUIをアップデートしないといけないようだということがわかりました。
以前,アップデートしたときにComfyUIが使えなくなって右往左往しながらダウングレードして以来,古いバージョンで使い続けていましたが,思いきってStability MatrixとComfyUIを最新版にしました。
アップデート後ComfyUIを起動してみると,GPUのドライバのバージョンが古いから起動できませんというメッセージが出てきたので,こちらも最新版にアップデートしました。
今度は起動プロセスを何とかこなし,ワークフローが表示されるところまで動きました。

画像生成できました

 アップデート後は何事もなかったかのように画像生成できました。最初の1枚は2分ちょっとの生成時間がかかりますが,カスタムノードのシード値をFixedにしておけば,2枚目以降は30秒程度で画像が生成されます。ただし,プロンプトが同じなので生成される画像も似た感じのものになります。

1.jpg
2.jpg

プロンプトを生成する指示はデフォルトの「花見をする若い日本人女性」です。いい感じの画像が出力されますが,着物姿の女性が出ることが多かったです。

3.jpg
4.jpg

「ブラウス,フレアスカート,薄手のコート」と服装を追加して生成した画像です。ほぼ指示通りの服装になりましたが,引きの画像になってしまいました。

5.jpg
6.jpg

「クローズアップポートレート」を追加して生成した画像です。簡単な日本語の指示ですが,きちんと反映した画像を生成してくれます。

指示内容を詳細にしていろいろ試してみようと思います。

Comment on this article

コメントはまだありません。

Send comments

Required
 
※ Your email address will not be published
Any
Required
Loading...  Please enter the letters of the image
9
10
11
12
13
14
15
16