LLMでプロンプトを生成して画像を作ると幅が広がる気がします
Google発のLLM
GemmaはGoogleが開発しているLLMで,私は前バージョンのGemma2をインストールして使っています。LLMはよさそうなものが紹介されるとインストールして試していますが,Gemma2はその中でも日本語での受け答えがなかなか良かったです。今回新バージョンが出たということで早速試してみました。
Gemma3 12Bをインストール
容量が8.1GBのこのモデルは私の環境ではちょっと厳しいかなと思いつつインストールしました。
チャットで毎回聞く「おいしいカレーの作り方」を教えてもらいましたが,細かく作り方を答えてくれたので驚きました。以前試したDeep Seeek-R1と同じくらい詳しい感じです。
ほかにもいくつか質問しましたが,日本語でのやり取りは前バージョンよりもよくなっている印象です。
続いてComfyUIで日本語テキストから英語のプロンプトを生成してもらいました。こちらも問題なく動作し,画像生成できました。
Gemma3はマルチモーダルLLMということで,画像を読み込んでプロンプトを生成してもらおうとしたのですが,何故かこちらはエラーメッセージが出て画像生成できませんでした。3.3GBと軽量なGemma3 4Bで試したところ,こちらはうまくいきました。12Bが動かないのはメモリが少ないのが原因かなと思います。
画像生成だけなら4Bでいいかも
日本語テキスト・画像ともにプロンプトを生成できるモデルなので画像生成には便利だと感じました。画像生成だけに使うなら4Bでいいかなと思いますが,おいしいカレーの作り方を比較したところ,チャット用途で使うならやはり12Bの方がいい感じです。LLMのモデルも増えてきたので,この機会に整理してみました。
(日本語チャット用途)Gemma3 12B,DeepSeek-R1-Distill-Qwen-Japanese:14b
(日本語テキストからプロンプト生成)Gemma3 12B,4B,DeepSeek-R1-Distill-Qwen-Japanese:14b,Tiger-Gemma-9b-v3:q4_K_M
(画像からプロンプト生成)Gemma3 4B,Minicpm-llama3-v-2.5,Janus Pro,Joycaption2
今後も新しいものが出たら試していくと思いますが,しばらくはこれでいこうと思います。
この記事へのコメント
コメントはまだありません。
コメントを送る