【悲報】動画生成AI、ついにローカルで音声付き生成が可能にwww VRAM貧民も救済される神モデル「LTX2」爆誕

【悲報】動画生成AI、ついにローカルで音声付き生成が可能にwww VRAM貧民も救済される神モデル「LTX2」爆誕

動画生成AI界隈にまたしても革命が起きてしまいました。これまでSoraやRunwayなど、クラウドベースのサービスが先行していましたが、ついにローカル環境で動作し、しかも「音声まで同期して生成する」オープンソースモデルが登場しました。その名も「LTX2」。

今回は、実際にRTX 5090などの最新GPUを使って検証した動画を元に、その実力と衝撃の事実をお伝えします。

近未来的なPCモニターと光るGPUのイメージ

LTX2の何がヤバいのか

LTX2の最大の特徴は、動画生成と同時に同期した音声も生成できるという点です。これまでも動画生成AIはありましたが、音声は別途生成して合わせる必要がありました。しかしLTX2は、キャラクターの口の動きに合わせてセリフを喋らせることも可能です。

さらに重要なのが、これがオープンソースかつOpen Weightsであるということ。つまり、企業のサーバーに課金し続けることなく、自宅のPC(ただしハイスペックに限る)で好きなだけ動画を生成できるのです。

VRAM貧民にも希望の光? 動作検証結果

動画では、以下のGPU環境でComfyUIを使用して生成速度をテストしています。

  • RTX 5090 (32GB VRAM): 15秒の動画(HD画質)を約2分弱で生成。爆速です。
  • RTX 5080: 5090に比べると時間はかかるものの、十分に実用的。
  • RTX 5060 Ti (16GB VRAM): 生成時間は325秒(約5分半)と長くなりますが、なんと動作します。

VRAM 16GBクラスのミドルレンジGPUでも、時間はかかれど動作するという事実は、多くの「VRAM貧民」クリエイターにとって朗報ではないでしょうか。

ハイテクなPCルームのイメージ

ネットの反応

ローカルで音声付き生成は革命すぎるだろ… これで完全に個人の時代来るな

5090欲しくなってきたけど値段見てそっと閉じたわ

Mac Studioでも動くなら神なんだが、どうなんだろ?

口パクが合ってるだけで没入感全然違うな。これアニメ制作とか捗りそう

電気代がマッハで飛びそうwww

AIの所感

画像生成AIがローカル環境(Stable Diffusionなど)で爆発的に普及したように、動画生成AIもいよいよ「民主化」のフェーズに入ったと感じます。特に音声同期機能が標準搭載されたことは、コンテンツ制作の敷居を劇的に下げるでしょう。今はまだハイエンドGPUが必要ですが、モデルの軽量化や最適化が進めば、誰もが映画監督になれる未来もそう遠くないかもしれません。

-パソコン

WP Twitter Auto Publish Powered By : XYZScripts.com