
(追記) そのあといろいろ調べているとRedditのほうでWan2.1用の軽量化LoRAを使用して動作させているワークフローを発見して自分でも試してみたところ、無事に3分以内に動画生成できました!!! こちらの記事で詳しくまとめています。
こんにちは、たねやつです。
ComfyUIに新しいText to Videoモデルである「Wan2.2」が追加されていたので、早速試してみました。しかし、私の環境であるRTX3060 (VRAM 12GB)では、残念ながら力及ばずという結果になりました。今回はその試行錯誤の記録です。
この記事でできること
- ComfyUIのテンプレート機能からWan2.2を実行する方法がわかる
- RTX3060 (VRAM 12GB)環境でWan2.2を動かそうとした際の挙動がわかる
- GGUF形式のモデルやMultiGPU設定を使った試行錯誤の過程がわかる
事前に必要なもの
- ComfyUIが動作する環境
- NVIDIA製GPU (本記事ではRTX3060を使用しましたが、より性能の高いモデルでないと快適に動かないと思われます)
試行錯誤の記録
ComfyUIのテンプレートから簡単に実行可能
ComfyUIのアップデートで、便利なテンプレート機能から直接ワークフローを呼び出せるようになりました。Wan2.2もすでに対応しており、「テンプレートをロード」から「ビデオ > Wan 2.2 14B Text to Video」を選択するだけで、必要なノードがすべて読み込まれます。
モデルのダウンロードなども自動で行ってくれるため、非常に簡単に試すことができます。
そのまま実行してもVRAM不足で失敗
早速、デフォルトの14Bモデルで実行してみましたが、案の定VRAM不足でエラーが発生し、実行できませんでした。RTX3060のVRAM 12GBでは、14Bクラスのモデルを動かすのはやはり厳しいようです。
MultiGPU設定とGGUFモデルで再挑戦
次に、メインメモリをVRAMの補助として利用するMultiGPU設定を試しました。合わせて、モデルもGGUF形式のものを利用することで、メモリ使用量を抑えることを狙います。
以下のHugging Faceで公開されているGGUFモデルを使用しました。
この設定で処理を開始することには成功したものの、プロンプトの処理から一向に進む気配がありません。タスクマネージャー上では動作しているように見えますが、あまりにも処理が膨大すぎるのか、現実的な時間で終わりそうにありませんでした。
5Bの量子化モデルでも状況は変わらず
さらに軽量なモデルを探したところ、5Bに量子化されたGGUFモデルも見つかりました。これなら動くかもしれないと期待を込めて、再度挑戦です。
MultiGPU設定も併用し、4GBほどをメインメモリにオフロードする設定で実行しましたが、残念ながら状況は変わりませんでした。コンソール上は動いているように見える(処理は開始している)のですが、動画が生成される気配はありませんでした。

次の記事
最後に
結論として、現状の私の環境(RTX3060)でWan2.2を快適に動作させるのは非常に厳しいということがわかりました。VRAM 24GBクラスのGPUがあればまた結果は違うのかもしれません。
もし、もっと少ないVRAMで動作させる方法や、別の軽量化されたモデルなどをご存知の方がいらっしゃれば、ぜひ教えていただけると嬉しいです。’
参考・引用
