たねやつの木

Photographs, Keyboards and Programming

ComfyUIでWan2.2が使えるようになっていたので試してみたけどRTX3060ではどう頑張ってもデフォルトでは厳しそう → 画像ちいさくしたらいけました

(追記) そのあといろいろ調べているとRedditのほうでWan2.1用の軽量化LoRAを使用して動作させているワークフローを発見して自分でも試してみたところ、無事に3分以内に動画生成できました!!! こちらの記事で詳しくまとめています。

www.taneyats.com

こんにちは、たねやつです。

ComfyUIに新しいText to Videoモデルである「Wan2.2」が追加されていたので、早速試してみました。しかし、私の環境であるRTX3060 (VRAM 12GB)では、残念ながら力及ばずという結果になりました。今回はその試行錯誤の記録です。

この記事でできること

  • ComfyUIのテンプレート機能からWan2.2を実行する方法がわかる
  • RTX3060 (VRAM 12GB)環境でWan2.2を動かそうとした際の挙動がわかる
  • GGUF形式のモデルやMultiGPU設定を使った試行錯誤の過程がわかる

事前に必要なもの

  • ComfyUIが動作する環境
  • NVIDIA製GPU (本記事ではRTX3060を使用しましたが、より性能の高いモデルでないと快適に動かないと思われます)

試行錯誤の記録

ComfyUIのテンプレートから簡単に実行可能

ComfyUIのアップデートで、便利なテンプレート機能から直接ワークフローを呼び出せるようになりました。Wan2.2もすでに対応しており、「テンプレートをロード」から「ビデオ > Wan 2.2 14B Text to Video」を選択するだけで、必要なノードがすべて読み込まれます。

モデルのダウンロードなども自動で行ってくれるため、非常に簡単に試すことができます。

そのまま実行してもVRAM不足で失敗

早速、デフォルトの14Bモデルで実行してみましたが、案の定VRAM不足でエラーが発生し、実行できませんでした。RTX3060のVRAM 12GBでは、14Bクラスのモデルを動かすのはやはり厳しいようです。

MultiGPU設定とGGUFモデルで再挑戦

次に、メインメモリをVRAMの補助として利用するMultiGPU設定を試しました。合わせて、モデルもGGUF形式のものを利用することで、メモリ使用量を抑えることを狙います。

以下のHugging Faceで公開されているGGUFモデルを使用しました。

この設定で処理を開始することには成功したものの、プロンプトの処理から一向に進む気配がありません。タスクマネージャー上では動作しているように見えますが、あまりにも処理が膨大すぎるのか、現実的な時間で終わりそうにありませんでした。

5Bの量子化モデルでも状況は変わらず

さらに軽量なモデルを探したところ、5Bに量子化されたGGUFモデルも見つかりました。これなら動くかもしれないと期待を込めて、再度挑戦です。

MultiGPU設定も併用し、4GBほどをメインメモリにオフロードする設定で実行しましたが、残念ながら状況は変わりませんでした。コンソール上は動いているように見える(処理は開始している)のですが、動画が生成される気配はありませんでした。

Wan2.2 5bをRTX3060でMultiGPUを使用して動かそうとしている画像

次の記事

www.taneyats.com

www.taneyats.com

www.taneyats.com

最後に

結論として、現状の私の環境(RTX3060)でWan2.2を快適に動作させるのは非常に厳しいということがわかりました。VRAM 24GBクラスのGPUがあればまた結果は違うのかもしれません。

もし、もっと少ないVRAMで動作させる方法や、別の軽量化されたモデルなどをご存知の方がいらっしゃれば、ぜひ教えていただけると嬉しいです。’

参考・引用