こんにちは、たねやつです。
動画生成AIのWan2.2に、新しく軽量な5Bモデルが登場しました。これまで主流だった14Bモデルと比べて、どの程度のクオリティと速度で動画を生成できるのでしょうか。
今回は、Wan2.2の5B版と14B版、両方のモデルを使って同じプロンプトから動画を生成し、その結果を比較・検証してみました。
この記事でできること
- Wan2.2 5B版の生成結果がわかる
- Wan2.2 14B版との違いがわかる
- 5B版を使う際の注意点がわかる
事前に必要なもの
- ComfyUI (Wan2.2が動作する環境)
- Wan2.2-5Bモデル
- Wan2.2-14Bモデル
- VRAMを搭載したグラフィックボード (今回はNVIDIA RTX 3060を使用)
Wan2.2-5B版を使ってみる
まずは、新しく登場した5B版モデルから試していきます。
実行環境と設定
項目 | 内容 |
---|---|
ワークフロー | ComfyUIの公式テンプレートを使用 |
VAE | モデルに対応したVAE(今回は2.2用)が正しく設定されていることを確認 |
モデル | 5B版は14B版と異なり、高ノイズ用・低ノイズ用の区別がありません。 |
ステップ数 | テンプレートのデフォルト設定(20ステップ)のまま、画像サイズのみ調整して生成しました。 |
プロンプト
今回は「透明なガラスのリンゴを包丁でスムーズに切る」というテーマで、ASMR動画風の表現を目指してみました。もう一つは踊る女性のクローズアップショットです。
positive
(cinematic still:1.2), (movie shot:1.2), (high resolution:1.2), ultra realistic, photorealistic, (masterpiece:1.3), best quality, a transparent glass apple, crystal clear, smooth glass surface, sparkling, refraction, (being smoothly sliced by a sharp kitchen knife:1.5), (clean cut:1.4), (softly yielding:1.3), (gel-like consistency:1.2), (wet-looking interior:1.1), (translucent interior:1.1), seamless slice, no shattering, no resistance, (a pair of human hands:1.1), (holding the knife:1.2), delicate fingers, realistic skin texture, close-up shot, action shot, dynamic angle, mid-motion, on a clean wooden cutting board, simple background, studio lighting, strong reflections, clear details
negative
(worst quality, low quality:1.4), normal quality, jpeg artifacts, blurry, lowres, bad anatomy, bad hands, mutated hands, extra fingers, fewer fingers, malformed limbs, deformed, disfigured, real apple, edible, fruit, food, flesh, juice, seeds, (shattered glass:1.5), (broken glass:1.5), (cracked:1.5), (splinters:1.5), (fragments:1.5), hard, stiff, rigid, messy, dirty, text, watermark, signature, username, error, artist name, ugly, tiling, poorly drawn, out of frame, duplicate, morbid
生成時間と結果
- 生成時間: 121フレームの動画を20ステップで生成したところ、RTX 3060 (VRAM 12GB) とメインメモリ64GBの環境で約10分かかりました。
- 生成結果:
- 透明なリンゴ: 残念ながら、動画はかなり破綻してしまいました。切ったはずのリンゴが元に戻ったり、ナイフを持つ手が消えたりと、プロンプトの意図を正確に汲み取るのは難しかったようです。プロンプトの調整次第では改善する可能性はあります。
- 雨の中でダンスする女性: 比較のため、別のプロンプトでも試しましたが、全体的にぼやけた印象の動画となり、人物の関節なども不自然な部分が見られました。情報量の多い複雑なプロンプトを扱うのは、まだ少し苦手なのかもしれません。
Wan2.2-14B版との比較
次に、同じプロンプトを14B版で実行し、5B版の結果と比較してみます。
比較項目 | 詳細 |
---|---|
プロンプト忠実度 | 14B版は、5B版に比べて圧倒的にプロンプトの指示に忠実でした。ガラスの質感や、ナイフで切られる様子がより自然に表現されています。 |
クオリティ | 背景のボケ感や光の反射、被写体の透明度など、全体的な実写感は14B版が格段に上です。5B版はまだ「AIが生成した動画」という印象が拭えません。 |
設定の違い | ComfyUIのテンプレートでは、5B版のCFG Scaleが5.0 と高めに設定されているのに対し、14B版は1.0 です。この設定の違いが、生成される動画のテイストに影響している可能性も考えられます。 |
生成速度 | ステップ数あたりの生成速度は、やはり5B版の方が高速です。しかし、14B版と同等のクオリティを求める場合、5B版ではステップ数をかなり増やす必要があり、結果的に総生成時間はあまり変わらなくなる可能性もあります。 |
最後に
Wan2.2の5B版と14B版を比較した結果、現状ではクオリティを求めるなら14B版に軍配が上がるという印象です。
5B版は軽量で動作が速いというメリットはありますが、複雑なプロンプトの表現や、実写に近い質感を出すのはまだ発展途上といったところです。手軽に動画生成を試したい場合や、多少の破綻を許容できる用途には向いているかもしれません。
今後のアップデートで5Bモデルの精度が向上することに期待したいです。
次の記事
次回は、1枚の画像から動画を生成するi2v (Image-to-Video)
の機能についても検証してみたいと思います。