たねやつの木

Photographs, Keyboards and Programming

FastVideo: wan2.1ベースの5秒の動画を5秒で生成する超高速ビデオ生成モデルが登場!

こんにちは、たねやつです。

AIによるビデオ生成技術がすごい勢いで進化していますね!今回は、驚異的なスピードで動画を生成するモデル「FastVideo」について、公式ブログの情報を元にご紹介します。

この記事でできること

  • FastVideoモデルの概要がわかる
  • FastVideoがなぜ高速なのか(スパース蒸留)がわかる
  • FastVideoを試す方法がわかる

FastVideoとは?

FastVideoは、Hao-AI-LabのFastVideoチームが開発した、非常に高速なビデオ生成モデルです。

なんと、「FastWan2.1-1.3B」というモデルでは、NVIDIA H200 GPU上で5秒間の480p動画をわずか5秒で生成できるとのことです。コンシューマー向けのGPUであるRTX 4090でも21秒で生成可能という、驚異的なスピードを誇ります。

これまでビデオ生成AIは高品質化が進む一方で、生成にはそれなりの時間がかかるのが当たり前でした。FastVideoの登場は、その常識を覆す大きな一歩と言えそうです。

高速化の秘密は「スパース蒸留」

では、なぜFastVideoはこれほどまでに高速なのでしょうか。その鍵は「スパース蒸留(Sparse Distillation)」という新しい学習手法にあります。

これは、2つの主要な技術を組み合わせたものです。

  1. Video Sparse Attention (VSA): ビデオ生成において計算コストが高くなりがちな「アテンション機構」を、空間的・時間的にスパース(疎)にすることで効率化する技術です。
  2. 蒸留(Distillation): 大規模で高性能な「教師モデル」の知識を、より小規模で軽量な「生徒モデル」に受け継がせる技術です。これにより、生徒モデルは少ない生成ステップで高品質なビデオを生成できるようになります。

この2つを組み合わせた「スパース蒸留」によって、FastVideoは品質を維持しつつ、劇的な高速化を達成しているのです。

オープンソースで誰でも試せる!

FastVideoの素晴らしい点は、その成果がオープンソースとして公開されていることです。

モデルの重み(ウェイト)や学習のレシピ、さらにはデータセットまで、すべてがコミュニティに開かれています。これにより、誰でもローカル環境で試したり、研究開発に活用したりすることが可能です。

以下のリンクから、デモを試したり、コードを確認したりできます。

最後に

今回は、5秒の動画を5秒で生成するという衝撃的な速さを実現したビデオ生成モデル「FastVideo」をご紹介しました。

「スパース蒸留」という新しいアプローチで、ビデオ生成のボトルネックであった速度の問題を解決した画期的な研究ですね。今後、この技術がさらに発展し、リアルタイムに近い形でのビデオ生成が当たり前になる未来もそう遠くないかもしれません。

今後の動向にも注目していきたいと思います!

参考・引用