Wan2.2の5B版と14B版を比較！動画生成のクオリティと速度の違いは？

こんにちは、たねやつです。

動画生成AIのWan2.2に、新しく軽量な5Bモデルが登場しました。これまで主流だった14Bモデルと比べて、どの程度のクオリティと速度で動画を生成できるのでしょうか。

今回は、Wan2.2の5B版と14B版、両方のモデルを使って同じプロンプトから動画を生成し、その結果を比較・検証してみました。

この記事でできること
事前に必要なもの
Wan2.2-5B版を使ってみる
Wan2.2-14B版との比較
最後に
次の記事

この記事でできること

Wan2.2 5B版の生成結果がわかる
Wan2.2 14B版との違いがわかる
5B版を使う際の注意点がわかる

事前に必要なもの

ComfyUI (Wan2.2が動作する環境)
Wan2.2-5Bモデル
Wan2.2-14Bモデル
VRAMを搭載したグラフィックボード (今回はNVIDIA RTX 3060を使用)

Wan2.2-5B版を使ってみる

まずは、新しく登場した5B版モデルから試していきます。

実行環境と設定

項目	内容
ワークフロー	ComfyUIの公式テンプレートを使用
VAE	モデルに対応したVAE（今回は2.2用）が正しく設定されていることを確認
モデル	5B版は14B版と異なり、高ノイズ用・低ノイズ用の区別がありません。
ステップ数	テンプレートのデフォルト設定（20ステップ）のまま、画像サイズのみ調整して生成しました。

プロンプト

今回は「透明なガラスのリンゴを包丁でスムーズに切る」というテーマで、ASMR動画風の表現を目指してみました。もう一つは踊る女性のクローズアップショットです。

positive

(cinematic still:1.2), (movie shot:1.2), (high resolution:1.2), ultra realistic, photorealistic, (masterpiece:1.3), best quality,
a transparent glass apple, crystal clear, smooth glass surface, sparkling, refraction,
(being smoothly sliced by a sharp kitchen knife:1.5), (clean cut:1.4), (softly yielding:1.3), (gel-like consistency:1.2),
(wet-looking interior:1.1), (translucent interior:1.1), seamless slice, no shattering, no resistance,
(a pair of human hands:1.1), (holding the knife:1.2), delicate fingers, realistic skin texture,
close-up shot, action shot, dynamic angle, mid-motion,
on a clean wooden cutting board, simple background, studio lighting, strong reflections, clear details

negative

(worst quality, low quality:1.4), normal quality, jpeg artifacts, blurry, lowres,
bad anatomy, bad hands, mutated hands, extra fingers, fewer fingers, malformed limbs, deformed, disfigured,
real apple, edible, fruit, food, flesh, juice, seeds,
(shattered glass:1.5), (broken glass:1.5), (cracked:1.5), (splinters:1.5), (fragments:1.5), hard, stiff, rigid,
messy, dirty,
text, watermark, signature, username, error, artist name,
ugly, tiling, poorly drawn, out of frame, duplicate, morbid

生成時間と結果

www.youtube.com

生成時間: 121フレームの動画を20ステップで生成したところ、RTX 3060 (VRAM 12GB) とメインメモリ64GBの環境で約10分かかりました。
生成結果:
- 透明なリンゴ: 残念ながら、動画はかなり破綻してしまいました。切ったはずのリンゴが元に戻ったり、ナイフを持つ手が消えたりと、プロンプトの意図を正確に汲み取るのは難しかったようです。プロンプトの調整次第では改善する可能性はあります。
- 雨の中でダンスする女性: 比較のため、別のプロンプトでも試しましたが、全体的にぼやけた印象の動画となり、人物の関節なども不自然な部分が見られました。情報量の多い複雑なプロンプトを扱うのは、まだ少し苦手なのかもしれません。

Wan2.2-14B版との比較

次に、同じプロンプトを14B版で実行し、5B版の結果と比較してみます。

比較項目	詳細
プロンプト忠実度	14B版は、5B版に比べて圧倒的にプロンプトの指示に忠実でした。ガラスの質感や、ナイフで切られる様子がより自然に表現されています。
クオリティ	背景のボケ感や光の反射、被写体の透明度など、全体的な実写感は14B版が格段に上です。5B版はまだ「AIが生成した動画」という印象が拭えません。
設定の違い	ComfyUIのテンプレートでは、5B版のCFG Scaleが`5.0`と高めに設定されているのに対し、14B版は`1.0`です。この設定の違いが、生成される動画のテイストに影響している可能性も考えられます。
生成速度	ステップ数あたりの生成速度は、やはり5B版の方が高速です。しかし、14B版と同等のクオリティを求める場合、5B版ではステップ数をかなり増やす必要があり、結果的に総生成時間はあまり変わらなくなる可能性もあります。