たねやつの木

Photographs, Keyboards and Programming

ComfyUIとWan2.2を使って画像から動画を生成するコツ

こんにちは、たねやつです。

今回は、ComfyUIとAnimateDiffの新しいモデル「Wan2.2」を使用して、一枚の画像から動画を生成する(Image to Video)際のコツや注意点についてまとめます。

この記事でできること

  • ComfyUIで既存の画像から動画を生成できるようになる。
  • AnimateDiff-Wan2.2モデルを使った動画生成のコツがわかる。
  • 画像から動画を生成する際の、成功しやすいケースと失敗しやすいケースを理解できる。

事前に必要なもの

  • ComfyUIの実行環境
  • AnimateDiff-Wan2.2モデル
  • 動画に変換したい画像

画像から動画を生成する手順とコツ

基本的には、AnimateDiff用のComfyUIテンプレートワークフローを使用することで、比較的簡単に画像から動画への変換を試すことができます。今回はその中で気づいた点や、より品質を上げるためのコツをいくつか紹介します。

パラメータ設定の注意点

t2vの場合は基本的に ステップ数fps の設定にで問題ないですが、i2vの場合は単純に ステップ数 / fps = 動画の秒数 と考えて設定すると、特にステップ数が少ない場合に動画が破綻しやすくなる傾向があります。

例えば4秒程度の動画を生成する場合でも、ステップ数は最低でも10以上を確保すると、比較的安定した品質の動画が得られました。

ひとまず30分ほどで出力できる8ステップで出力してみています。

www.youtube.com

アニメ系のイラストはステップ数が少ないと破綻しやすい

Wan2.2モデル自体が実写系のデータセットで学習されているためか、アニメ調のイラストを元に動画を生成しようとすると、キャラクターの顔や細部が崩れやすいようです。

何度か試行しましたが、安定して高品質なアニメ風動画を生成するのは難しい印象でした。ステップ数をもっと増やせば改善すると思いますが、RTX3060では厳しい感じですね。。。

実写系の画像は非常に滑らか

一方で、実写系の画像(風景、人物など)を元にした動画生成は、非常に高品質で滑らかな結果が得られます。

驚いたのは、元画像に写っていない部分(例えば、人物の背後など)も、AIが自然に補完して違和感のない動画を生成してくれる点です。複数人が映っている場合の前後関係の矛盾も少なく、AIによる生成とは思えないほどのクオリティでした。

生成時間と使い分け

当然ながら、画像生成 → 動画生成 という2段階のプロセスを経るため、プロンプトから直接動画を生成する場合よりも時間はかかります。

  • 手元に動画化したい特定の画像がある場合: このImage to Videoの手法が有効です。
  • プロンプトだけでゼロから動画を作りたい場合: 最初からVideo to Videoのワークフローで生成する方が効率的です。

最後に

今回は、ComfyUIとAnimateDiff-Wan2.2モデルを使って画像から動画を生成する際のポイントについて解説しました。 特に実写系の画像との相性は抜群で、驚くほど自然な動画を生成できることがわかりました。アニメ系にはまだ課題が残りますが、今後のモデルの進化に期待したいところです。