たねやつの木

Photographs, Keyboards and Programming

ComfyUIでWan2.2をLoRAを使って軽量化し、RTX3060で動かす

こんにちは、たねやつです。

先日、ComfyUIで最新のText to Videoモデル「Wan2.2」を試したものの、RTX3060ではスペック不足でまともに動作しないという悔しい結果に終わりました。

しかし、諦めきれません!

海外の掲示板で、Wan2.1用の軽量化LoRAをWan2.2に適用して動作させている猛者を発見し、早速試してみたところ、ついに私の環境でも動画を生成することに成功しました!今回はそのリベンジの記録です。

前の記事

www.taneyats.com

この記事でできること

  • Wan2.2をRTX3060 (VRAM 12GB)環境で動作させる方法がわかる
  • 軽量化LoRAを使ったComfyUIのワークフローがわかる
  • 実際に動画を生成するまでの所要時間がわかる

Redditで救世主を発見!

諦めきれずに情報を探していたところ、RedditのStable Diffusionコミュニティで、まさに私が求めていた情報が見つかりました。Wan2.1向けに作られた軽量化LoRAをWan2.2モデルに適用することで、VRAMが少ない環境でも動作させているという内容でした。

https://www.reddit.com/r/StableDiffusion/comments/1mbuo3o/rtx3060_32_go_ram_wan22_t2v_14b_gguf_512x384_4/

投稿に添付されていたワークフローを元に、早速試してみることにしました。

手順

1. 必要なモデルとLoRAをダウンロード

今回のキモとなる軽量化LoRAと、GGUF形式のWan2.2モデルをダウンロードします。

  • Wan2.2 GGUFモデル (Q5_K_M)
    • wan2.2_t2v_high_noise_14B_Q5_K_M.gguf
    • wan2.2_t2v_low_noise_14B_Q5_K_M.gguf
  • 軽量化LoRA
    • Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors

これらのファイルをComfyUIの適切なフォルダに配置します。

Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensorsを使用している

2. ワークフローを読み込んで実行

Redditで共有されていたワークフローをComfyUIに読み込み、モデルやLoRAのパスが正しく設定されていることを確認します。

そして、いざ実行!

前回はうんともすんとも言わなかった処理が、今回は着実に進んでいきます。そして...

なんと、わずか144秒で動画の生成が完了しました!

無事に動画の生成ができた

生成された動画はまだ短いものですが、RTX3060でWan2.2が動いたという事実に大きな感動を覚えました。👏👏👏👏

最後に

前回の雪辱を果たし、無事にRTX3060環境でWan2.2を動作させることができました。これもすべて、知識を共有してくれるコミュニティのおかげです。本当にありがたいですね。

LoRAを適用することで、最新のモデルでも工夫次第で自分の環境で動かせる可能性があることがわかり、大きな収穫となりました。しばらくは、このワークフローをベースに、動画の長さやクオリティを調整しながら遊んでみようと思います!

次の記事

www.taneyats.com