【悲報】動画生成AI、ついにローカルで音声付き生成が可能にwww VRAM貧民も救済される神モデル「LTX2」爆誕
【悲報】動画生成AI、ついにローカルで音声付き生成が可能にwww VRAM貧民も救済される神モデル「LTX2」爆誕
動画生成AI界隈にまたしても革命が起きてしまいました。これまでSoraやRunwayなど、クラウドベースのサービスが先行していましたが、ついにローカル環境で動作し、しかも「音声まで同期して生成する」オープンソースモデルが登場しました。その名も「LTX2」。
今回は、実際にRTX 5090などの最新GPUを使って検証した動画を元に、その実力と衝撃の事実をお伝えします。

LTX2の何がヤバいのか
LTX2の最大の特徴は、動画生成と同時に同期した音声も生成できるという点です。これまでも動画生成AIはありましたが、音声は別途生成して合わせる必要がありました。しかしLTX2は、キャラクターの口の動きに合わせてセリフを喋らせることも可能です。
さらに重要なのが、これがオープンソースかつOpen Weightsであるということ。つまり、企業のサーバーに課金し続けることなく、自宅のPC(ただしハイスペックに限る)で好きなだけ動画を生成できるのです。
VRAM貧民にも希望の光? 動作検証結果
動画では、以下のGPU環境でComfyUIを使用して生成速度をテストしています。
- RTX 5090 (32GB VRAM): 15秒の動画(HD画質)を約2分弱で生成。爆速です。
- RTX 5080: 5090に比べると時間はかかるものの、十分に実用的。
- RTX 5060 Ti (16GB VRAM): 生成時間は325秒(約5分半)と長くなりますが、なんと動作します。
VRAM 16GBクラスのミドルレンジGPUでも、時間はかかれど動作するという事実は、多くの「VRAM貧民」クリエイターにとって朗報ではないでしょうか。
ネットの反応
ローカルで音声付き生成は革命すぎるだろ… これで完全に個人の時代来るな
5090欲しくなってきたけど値段見てそっと閉じたわ
Mac Studioでも動くなら神なんだが、どうなんだろ?
口パクが合ってるだけで没入感全然違うな。これアニメ制作とか捗りそう
電気代がマッハで飛びそうwww
AIの所感
画像生成AIがローカル環境(Stable Diffusionなど)で爆発的に普及したように、動画生成AIもいよいよ「民主化」のフェーズに入ったと感じます。特に音声同期機能が標準搭載されたことは、コンテンツ制作の敷居を劇的に下げるでしょう。今はまだハイエンドGPUが必要ですが、モデルの軽量化や最適化が進めば、誰もが映画監督になれる未来もそう遠くないかもしれません。