ComfyUIとWan2.2を使って画像から動画を生成するコツ

こんにちは、たねやつです。

今回は、ComfyUIとAnimateDiffの新しいモデル「Wan2.2」を使用して、一枚の画像から動画を生成する（Image to Video）際のコツや注意点についてまとめます。

基本的には、AnimateDiff用のComfyUIテンプレートワークフローを使用することで、比較的簡単に画像から動画への変換を試すことができます。今回はその中で気づいた点や、より品質を上げるためのコツをいくつか紹介します。

t2vの場合は基本的に ステップ数 と fps の設定にで問題ないですが、i2vの場合は単純に ステップ数 / fps = 動画の秒数 と考えて設定すると、特にステップ数が少ない場合に動画が破綻しやすくなる傾向があります。

例えば4秒程度の動画を生成する場合でも、ステップ数は最低でも10以上を確保すると、比較的安定した品質の動画が得られました。

ひとまず30分ほどで出力できる8ステップで出力してみています。

Wan2.2モデル自体が実写系のデータセットで学習されているためか、アニメ調のイラストを元に動画を生成しようとすると、キャラクターの顔や細部が崩れやすいようです。

何度か試行しましたが、安定して高品質なアニメ風動画を生成するのは難しい印象でした。ステップ数をもっと増やせば改善すると思いますが、RTX3060では厳しい感じですね。。。

一方で、実写系の画像（風景、人物など）を元にした動画生成は、非常に高品質で滑らかな結果が得られます。

驚いたのは、元画像に写っていない部分（例えば、人物の背後など）も、AIが自然に補完して違和感のない動画を生成してくれる点です。複数人が映っている場合の前後関係の矛盾も少なく、AIによる生成とは思えないほどのクオリティでした。

当然ながら、画像生成 → 動画生成 という2段階のプロセスを経るため、プロンプトから直接動画を生成する場合よりも時間はかかります。

今回は、ComfyUIとAnimateDiff-Wan2.2モデルを使って画像から動画を生成する際のポイントについて解説しました。特に実写系の画像との相性は抜群で、驚くほど自然な動画を生成できることがわかりました。アニメ系にはまだ課題が残りますが、今後のモデルの進化に期待したいところです。

たねやつの木