たねやつの木

Photographs, Keyboards and Programming

【ComfyUI】2025年現在の私のAI動画・音声生成ワークフローまとめ

こんにちは、たねやつです。

今回は、2025年現在、私がComfyUIをメインに使って行っているAI動画・音声生成のワークフローについて、備忘録も兼ねてまとめてみたいと思います。色々なツールを組み合わせて、かなり効率的に作業できるようになってきました。

この記事でできること

  • 現在のAI動画・音声生成で使っているツールセットがわかる
  • ComfyUIでの動画生成(Wan2.2)の具体的な設定値がわかる
  • Stable-AudioXでの音声生成設定の勘所がわかる
  • Open-WebUIを活用したプロンプト生成の効率化方法がわかる

事前に必要なもの

この記事で紹介するワークフローを試すためには、以下のツールや環境が必要です。

ハードウェア

ソフトウェア

  • ComfyUI: ノードベースのStable Diffusion UI。
  • Wan2.2 14B: 動画生成モデル。
  • Stable-AudioX: 音声生成モデル。
  • Open-WebUI: LLM(大規模言語モデル)を操作するためのWebUI。

現在のワークフロー

現在の私のワークフローは、主に以下の3つのAIツールを連携させて構成されています。

  1. 動画生成: Wan2.2 14B をComfyUI上で動かす
  2. 音声生成: Stable-AudioX で動画に合うBGMや効果音を生成
  3. プロンプト・メタデータ生成: Open-WebUI で各種AIへの指示やYouTubeのタイトルなどを生成

それぞれの詳細について解説します。

動画生成: Wan2.2 14B

動画のベースはWan2.2 14Bというモデルを使って生成しています。いくつか軽量化や高速化のための工夫をしています。

  • モデルの軽量化: Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32 というLoRAを適用し、軽量化を図っています。
  • メモリ対策: MultiGPU設定を利用し、GPUのVRAMに乗り切らないモデルの一部をメインメモリに退避させています。これにより、VRAMが比較的少ない環境でも動作させやすくなります。
  • 生成設定:
    • 解像度: 400 x 848 (9:16のアスペクト比)
    • 長さ: 97フレーム (24fpsで約4秒の動画)
    • ステップ数: 4ステップ
      • このモデルと解像度の組み合わせだと、4ステップでも十分綺麗な動画が生成される印象です。

Wan2.2を使用しているワークフロー

以下リンク先で詳細に説明しています!

音声生成: Stable-AudioX

動画に合わせる背景音(BGMや環境音)はStable-AudioXで生成します。こちらもComfyUIのカスタムノードで利用可能です。

  • 設定のポイント:
    • ステップ数: 20ステップで十分だと感じています。デフォルト値だとノイズが多くなりがちなので、少し下げています。
    • 長さ: duration_secondsを、先に生成した動画の長さに合わせます。(今回の例では約4秒)

stable-audioxのワークフロー

以下記事で詳細に説明しています。

プロンプト・メタデータ生成: Open-WebUI

動画や音声を作る際のプロンプト、さらにはYouTubeに投稿する際のタイトルや説明文などは、すべてLLM(Open-WebUI経由)に生成してもらっています。 ワークスペースのシステムプロンプトに以下の「命令書」をセットしておくことで、毎回安定した品質の出力を得ることができます。

# 命令書:コンテンツ生成プロフェッショナル
### 制約条件
- **言語:** すべての成果物は**英語**でそれぞれCodeブロックでコピペしやすいように囲んで生成してください。
- **品質:** 各プロンプトは、それぞれのAIツールで最高品質の結果が得られるように、具体的かつ効果的なキーワード(例: cinematic, 8k, masterpiece, high-fidelity audio)を含めてください。
- **出力形式の厳守:** 以下の「出力形式」に記載された見出しと順序を必ず守って、一回の回答で全てを出力してください。

### 出力形式
---
**Video Generation Positive Prompt**
(A detailed, high-quality prompt for generating the video. Should include style, scene, composition, quality keywords.)

**Video Generation Negative Prompt**
(A prompt to specify what to avoid in the video. Should include common image artifacts and undesirable elements.)

**Audio Generation Positive Prompt**
(A prompt to generate background music and sound effects that match the video's atmosphere. Should include genre, instruments, mood, and quality keywords.)

**Audio Generation Negative Prompt**
(A prompt to specify what to avoid in the audio. Should include noise, distortion, and other undesirable audio artifacts.)

**YouTube Title**
(A catchy and SEO-friendly title for the YouTube video.)

**Hashtags**
(A list of relevant and popular hashtags, starting with #.)

**Description**
(A well-structured YouTube description that summarizes the video, includes a call-to-action, and relevant keywords.)
---

このプロンプトを一度設定しておけば、あとは作りたい動画のテーマを伝えるだけで、必要なプロンプト一式とYouTube用のメタデータをすべて一括で生成してくれるので、非常に効率的です。

最後に

今回は、2025年現在の私のAI動画・音声生成ワークフローを紹介しました。 それぞれのAIの進化が速いので、このワークフローもすぐに変わっていくかもしれませんが、現時点ではこの形が一番効率的でクオリティも出せると感じています。 この記事が、AIでのコンテンツ制作に挑戦している方の参考になれば幸いです。