
【革命】AIが描く映像がライブ配信に!リアルタイム動画生成「StreamDiT」の衝撃
「リアルタイム動画生成 StreamDiT」は、Metaとカリフォルニア大学バークレー校の研究者によって開発された画期的なAIモデルです。
主な特徴と機能は以下の通りです。
- リアルタイム生成: 従来の動画生成モデルが動画全体をオフラインで生成するのに対し、StreamDiTはフレームごとに動画ストリームをライブで生成します。これにより、リアルタイムでのアプリケーションが可能になります。
- 高性能: 単一の高性能GPU(NVIDIA H100など)を使用して、512p解像度の動画を毎秒16フレーム(FPS)で生成できます。
- カスタムアーキテクチャ: 速度を重視したカスタムアーキテクチャを採用しており、「移動バッファ」技術により複数のフレームを同時に処理し、出力しながら洗練させていきます。
- 多様な機能:
- テキストプロンプトから最大1分間の動画をその場で生成できます。
- インタラクティブなプロンプトに応答し、動画コンテンツをリアルタイムで変更することが可能です。
- 既存の動画をリアルタイムで編集する「ビデオ・ツー・ビデオ」機能も備えています。
- リアルタイムのストーリーテリング、バーチャルアバターの制御、ライブコンテンツ作成など、幅広いアプリケーションへの応用が期待されています。
- 大規模な学習: 40億のパラメータを持ち、260万本の動画を含む大規模なデータセットで学習されました。リアルタイム性能を実現するために、計算ステップを削減する多段階蒸留法が導入されています。
StreamDiTは、AI動画生成を「オフライン制作」から「ライブ放送」へと進化させ、インタラクティブメディアやゲームに新たな可能性をもたらす重要な進歩とされています。ただし、動画の初期部分を「記憶」する能力に限界がある点や、セクション間の移行が時折視覚的に認識できるといった課題も残されています。