
こんにちは、たねやつです。
ComfyUIで動画を生成していると、「なぜかうまく生成できない」「画像が破綻してしまう」といった問題に直面することがあります。その原因は様々ですが、今回は意外と見落としがちな解像度とアスペクト比が、使用する動画生成モデルの出力に与える影響について、Wan2.2というモデルを例に検証してみました。
前の記事
この記事でできること
- 動画生成で特定のモデルを使用する際に、解像度やアスペクト比が重要である理由を理解できる。
Wan2.2モデルで比較的安定した出力を得るための解像度設定の例を知ることができる。- 動画生成がうまくいかない場合に、解像度やアスペクト比を見直すという、トラブルシューティングの観点を学べる。
必要なもの
- VRAM 8GB以上のNVIDIA製グラフィックボード (RTX 3060 12GBで検証)
- 前回までで作成したワークフロー
手順
動画を生成する際、特にWan2.2のような最新のモデルを使用する場合、そのモデルが学習された際の解像度やアスペクト比に結果が大きく左右されることがあります。
今回はWan2.2モデルを使い、解像度設定の違いでどのような差が生まれるかを見ていきます。
安定して生成しやすい設定 (512 x 384)
現在の私の環境で、Wan2.2モデルを使って比較的きれいな出力結果を得やすいと感じるのが、512 x 384という横長の解像度設定です。
Empty Latent Imageノードのwidthを512、heightを384に設定して生成すると、以下のように破綻の少ない動画が出力される傾向にあります。
一方で、フレームレート(FPS)に関しては、今回の検証では出力の安定性にあまり大きな影響はないように感じました。
縦動画でもプロンプト次第では問題ない (384 x 512)
次に、アスペクト比を逆転させ、384 x 512の縦長動画を試してみます。当初、モデルの学習データによっては破綻しやすいかと考えていましたが、プロンプトを適切に設定することで、この解像度でも問題なく生成できることがわかりました。
重要なのは、生成したい動画の内容とプロンプト、そしてモデルの特性の組み合わせのようです。
480 x 848でもRTX3060で10分ほど
さらに解像度を上げた480 x 848(約16:9の縦長)でも試してみました。私の環境であるRTX 3060 (12GB) では、数十フレームの動画生成におおよそ10分ほどかかりました。
VRAM使用量も増えますが、より高画質な縦長動画を生成したい場合には、十分に実用的な範囲と言えそうです。元のポストでは解像度が重要とありましたが、私の用途では今のところ問題ないようです。
なぜ結果が変わるのか?(考察)
アスペクト比や解像度によって出力の安定性が変わる理由として、動画生成モデルの学習データが関係している可能性が考えられます。
モデルが特定の解像度やアスペクト比のデータセットで主に学習されている場合、それとかけ離れた形式で生成しようとすると、うまく特徴を捉えきれずに破綻しやすくなるのではないかと推測されます。ただし、Wan2.2に関しては、様々なアスペクト比に対応できる柔軟性を持っているようです。
縦長の動画を作りたい場合の対策
Wan2.2は比較的柔軟ですが、もし他のモデルで縦長動画の生成がうまくいかない場合は、一度安定する横長の解像度で動画を生成し、その後に動画編集ソフトや他のComfyUIワークフローを使って、中央部分を縦長にクリッピング(切り抜き)するといった後処理を行うのが有効な手段です。
最後に
今回は、動画生成モデル Wan2.2 を例に、解像度とアスペクト比が出力品質に与える影響について検証しました。
もし動画生成で意図した通りの結果が得られずに悩んだ場合は、プロンプトやサンプラーの設定だけでなく、「Latent Imageの解像度を変えてみる」「モデルが得意そうなアスペクト比を試してみる」といった観点で見直してみると、解決の糸口が見つかるかもしれません。
モデルの特性を理解し、それに合わせた設定を試していくことが、安定した動画生成への近道と言えそうです。
次の記事
次は音声を付けます。