LTX Videoを使ってみました｜Stable Diffusion｜Blog

Stable Diffusion 2024.12.15

私の環境でもImage to Videoができるってすごいかも

これもXのツイートで知りました

　先日の記事で使ってみたDetail Daemonと同じく，このLTX Videoも西川和久さんのXのツイートを見て，ComfyUIを使ってローカルでImage to Videoができるなら試してみたいと思いました。
気になる点は私のNEXRGEARはGPUのメモリが8GBなので，きちんと動作するかは不安でした。

とりあえず環境を構築してみる

　こちらやこちらのWebサイトの記事を参考にして，必要なファイルをダウンロードしたのですが，ファイル3つで29GB!くらいあるのには驚きました。

ltx-video-2b-v0.9.safetensors(9.37GB)
t5xxl_fp16.safetensors(9.79GB)
model-00001-of-00002.safetensors(9.9GB)

それぞれのファイルを指示されている場所に置き，ComfyUIを起動してLTXVideoとVideoHelperSuiteという拡張機能をインストールしました。
さらにこちらのサイトからリンクをたどってImage to Videoのワークフローをダウンロードしました。

アイキャッチ用に生成した画像でI2V

　テスト用ということで，以前Blogのアイキャッチ用に生成した画像を使い，プロンプトは適当に入力して動画を生成してみました。驚いたことにGPUのメモリが8GBのNEXTGEARで止まることなく動作し，数秒の動画ができあがりました。しかも結構速いです。
残念だったのは出来上がった映像が結構崩れてしまうことです。変更できるのかもしれませんが，ファイル形式がWebp形式というのも私的には微妙な感じです。

Civitaiで配布されているワークフローを使う

　どうしたらいいか調べていると，最初に見つけた西川和久さんのXのツイートに別のワークフローへのリンクがありました。早速ダウンロードしてワークフローをDrag&Dropすると…とても複雑そうなワークフローでしかもインストールしていないカスタムノードがたくさんあって画面が真っ赤になっていました。

落ち着いてカスタムノードをインストールして，上記と同様にBlogのアイキャッチ用に生成した画像を使って動画を生成しました。
こちらのワークフローもGPUのメモリが8GBのNEXTGEARで止まることなく動作し，3秒の動画ができあがりました。最初の生成は時間がかかりますが，２本目以降は3秒の動画が2分弱で生成されることもありました。（サイズは768×384と小さいですが…）
出来上がった映像もそれほど崩れることなく見ることができます。これはなかなか面白いと感じました。
生成する動画の長さは，Video Lengthノードの数値で設定します。デフォルトの2倍の194に設定したところ7秒の動画が生成されました。生成時間は最短で3分くらいでした。当たり前ですが動画を長くすると生成に時間がかかりますが，もっと時間がかかると思っていたので意外でした。

デフォルト設定３秒の動画です。元画像はSD1.5で生成しています。

こちらは７秒にした動画です。手の動きは微妙ですが…

映像の崩れはありますがなかなかよいです。

人物が小さいと映像が崩れやすいかも。ちゃんと歩いてくれいています。

人物の動きを指示したい

　上記のワークフローはプロンプトをFlorence2というLLMで生成してくれるので画像を選ぶだけでいいのでお手軽です。画像からプロンプトを生成するので，imageとかphotoという単語が出てきますが，自動的にvideoに変換されるようです。
プロンプトを書き替えるときは，CLIP Text Encode (Positive Prompt)ノードを右クリックしてconvert Input to Widgetを選択すると入力欄が表示されるので，Show Textノードに表示されているプロンプトをコピーして書き換えるといいみたいです。