たねやつの木

Photographs, Keyboards and Programming

Wan2.2の5B版と14B版を比較!動画生成のクオリティと速度の違いは?

こんにちは、たねやつです。

動画生成AIのWan2.2に、新しく軽量な5Bモデルが登場しました。これまで主流だった14Bモデルと比べて、どの程度のクオリティと速度で動画を生成できるのでしょうか。

今回は、Wan2.2の5B版と14B版、両方のモデルを使って同じプロンプトから動画を生成し、その結果を比較・検証してみました。

この記事でできること

  • Wan2.2 5B版の生成結果がわかる
  • Wan2.2 14B版との違いがわかる
  • 5B版を使う際の注意点がわかる

事前に必要なもの

  • ComfyUI (Wan2.2が動作する環境)
  • Wan2.2-5Bモデル
  • Wan2.2-14Bモデル
  • VRAMを搭載したグラフィックボード (今回はNVIDIA RTX 3060を使用)

Wan2.2-5B版を使ってみる

まずは、新しく登場した5B版モデルから試していきます。

実行環境と設定

項目 内容
ワークフロー ComfyUIの公式テンプレートを使用
VAE モデルに対応したVAE(今回は2.2用)が正しく設定されていることを確認
モデル 5B版は14B版と異なり、高ノイズ用・低ノイズ用の区別がありません。
ステップ数 テンプレートのデフォルト設定(20ステップ)のまま、画像サイズのみ調整して生成しました。

プロンプト

今回は「透明なガラスのリンゴを包丁でスムーズに切る」というテーマで、ASMR動画風の表現を目指してみました。もう一つは踊る女性のクローズアップショットです。

positive
(cinematic still:1.2), (movie shot:1.2), (high resolution:1.2), ultra realistic, photorealistic, (masterpiece:1.3), best quality,
a transparent glass apple, crystal clear, smooth glass surface, sparkling, refraction,
(being smoothly sliced by a sharp kitchen knife:1.5), (clean cut:1.4), (softly yielding:1.3), (gel-like consistency:1.2),
(wet-looking interior:1.1), (translucent interior:1.1), seamless slice, no shattering, no resistance,
(a pair of human hands:1.1), (holding the knife:1.2), delicate fingers, realistic skin texture,
close-up shot, action shot, dynamic angle, mid-motion,
on a clean wooden cutting board, simple background, studio lighting, strong reflections, clear details
negative
(worst quality, low quality:1.4), normal quality, jpeg artifacts, blurry, lowres,
bad anatomy, bad hands, mutated hands, extra fingers, fewer fingers, malformed limbs, deformed, disfigured,
real apple, edible, fruit, food, flesh, juice, seeds,
(shattered glass:1.5), (broken glass:1.5), (cracked:1.5), (splinters:1.5), (fragments:1.5), hard, stiff, rigid,
messy, dirty,
text, watermark, signature, username, error, artist name,
ugly, tiling, poorly drawn, out of frame, duplicate, morbid

生成時間と結果

www.youtube.com

  • 生成時間: 121フレームの動画を20ステップで生成したところ、RTX 3060 (VRAM 12GB) とメインメモリ64GBの環境で約10分かかりました。
  • 生成結果:
    • 透明なリンゴ: 残念ながら、動画はかなり破綻してしまいました。切ったはずのリンゴが元に戻ったり、ナイフを持つ手が消えたりと、プロンプトの意図を正確に汲み取るのは難しかったようです。プロンプトの調整次第では改善する可能性はあります。
    • 雨の中でダンスする女性: 比較のため、別のプロンプトでも試しましたが、全体的にぼやけた印象の動画となり、人物の関節なども不自然な部分が見られました。情報量の多い複雑なプロンプトを扱うのは、まだ少し苦手なのかもしれません。

Wan2.2-14B版との比較

次に、同じプロンプトを14B版で実行し、5B版の結果と比較してみます。

比較項目 詳細
プロンプト忠実度 14B版は、5B版に比べて圧倒的にプロンプトの指示に忠実でした。ガラスの質感や、ナイフで切られる様子がより自然に表現されています。
クオリティ 背景のボケ感や光の反射、被写体の透明度など、全体的な実写感は14B版が格段に上です。5B版はまだ「AIが生成した動画」という印象が拭えません。
設定の違い ComfyUIのテンプレートでは、5B版のCFG Scaleが5.0と高めに設定されているのに対し、14B版は1.0です。この設定の違いが、生成される動画のテイストに影響している可能性も考えられます。
生成速度 ステップ数あたりの生成速度は、やはり5B版の方が高速です。しかし、14B版と同等のクオリティを求める場合、5B版ではステップ数をかなり増やす必要があり、結果的に総生成時間はあまり変わらなくなる可能性もあります。

最後に

Wan2.2の5B版と14B版を比較した結果、現状ではクオリティを求めるなら14B版に軍配が上がるという印象です。

5B版は軽量で動作が速いというメリットはありますが、複雑なプロンプトの表現や、実写に近い質感を出すのはまだ発展途上といったところです。手軽に動画生成を試したい場合や、多少の破綻を許容できる用途には向いているかもしれません。

今後のアップデートで5Bモデルの精度が向上することに期待したいです。

次の記事

次回は、1枚の画像から動画を生成するi2v (Image-to-Video)の機能についても検証してみたいと思います。