話題の画像生成AIにチャレンジ
画像生成AI界隈で一番盛り上がっています
私がQwen-Imageを知ったのはこちらの記事でした。QwenはLLMで利用したことがあったので,それを利用した画像生成AIなんだと思いました。このときはWan2.2を使ってみようと考えていたことと,私の環境では動かせないだろうと考えて放置していました。
しかしながら,Web上ではかなり盛り上がっている画像生成AIなので気になってきました。
VRAM6GBでも動かせる
Web上の情報でこちらの記事を発見し,VRAM6GBで動かせる方法が紹介してあったので,私もチャレンジすることにしました。環境構築は簡単で,モデルなどの必要なファイルをダウンロードしてしかるべき場所に配置するだけでした。もっと複雑かと思っていました。
記事中にもありますが,省メモリで使えるGGUFモデルと4Stepsで生成できる高速化LoRAを利用することでメモリが少ないGPUでも動作可能にしているようです。
画像を生成してみました
Wan2.2で使っているプロンプトで画像を生成してみました。気になる生成速度は最初の1枚は3分ほどかかりますが,2枚目以降は30秒台で生成したので驚きました。写真っぽいリアルな画像でプロンプトもしっかり反映されていると感じたのですが,数枚生成したところで今までの画像生成AIと異なるところが気になりました。
それは,シード値が変わってもほぼ同じ画像が生成されることです。微妙に変化はするのですが,構図や背景,ポーズ,服装,顔に至るまでほとんど同じ画像になります。これはプロンプトを細かく作り込めば作り手が意図した通りの画像が一発で生成できるということで,歓迎すべきポイントだと思います。しかし,私のように1つのプロンプトを使って何枚も画像を生成して,いいものを選ぶという使い方をしていると困ったことになります。1枚1枚プロンプトを変更しないと異なる画像が生成できないというのはとても効率が悪いです。
試行錯誤してみるも玉砕
とりあえず生成するたびに顔だけでも変わらないかと考え,試行錯誤してみることにしました。
- LLMで画像からプロンプトを生成する
- 顔に関するプロンプトを50種類LLMで生成したテキストファイルを使ってランダムで画像を生成する
- image to imageする
- LoRAを使う
ガチャをする方法が知りたい
Qwen-Imageはプロンプトを反映したリアルな画像が高速で生成できるので,非常に有用な画像生成AIだと感じました。
私の用途だといわゆるガチャができないと使えないのですが,今回はWeb上の情報でそれを得ることはできませんでした。せめてシード値が変わると画像も変化するようになるといいのですが…
しばらくは話題になっていると思うので引き続き注目していきたいと思います。
この記事へのコメント
コメントはまだありません。
コメントを送る