【悲報】NVIDIA最新GPU、RTX 5090に仮想環境で「沈黙する」バグ報告。解決に報奨金1000ドル

【悲報】NVIDIA最新GPU、RTX 5090に仮想環境で「沈黙する」バグ報告。解決に報奨金1000ドル

NVIDIAの最新世代GPU、GeForce RTX 5090およびRTX PRO 6000に、特定の条件下でデバイスが完全に応答しなくなる、通称「リセットバグ」が報告され、一部のパワーユーザーやクラウド事業者の間で深刻な問題となっています。問題の解決には、あるクラウド事業者から最大1000ドルの報奨金が提示されるなど、異例の事態に発展しています。

サーバーラックに収められたGPUとエラーシンボル

仮想マシンを落とすとGPUが「沈黙」する

この問題が主に発生するのは、Linuxホスト上で仮想マシン(VM)を起動し、そこにGPUを直接割り当てる(パススルー)といった、高度な仮想化環境です。ユーザー報告によると、ゲストOS(VM)をシャットダウンしたり、GPUの割り当てを切り替えたりした直後、GPUがリセット処理に応答しなくなり、完全に「沈黙」してしまいます。

一度この状態に陥ると、OS上からデバイスは認識できなくなり、ドライバーの再読み込みなどでは復帰しません。復旧させるには、PC全体の電源を完全に落とし、物理的に再起動する以外の方法がないとされています。

なぜこれが「ヤバい」のか?クラウド破綻の危機

一般のゲーマーが普通にPCを使っている限り、この問題に遭遇する可能性は低いと見られています。しかし、これがなぜ「ヤバい」問題かというと、現代のITインフラ、特にクラウドコンピューティングの根幹を揺るがしかねないからです。

クラウド事業者は、1台のサーバーに搭載された複数のGPUを、仮想化技術を使って多くのユーザーに時間単位で貸し出しています。ユーザーの利用が終わるたびにGPUをクリーンな状態に「リセット」し、次のユーザーに割り当てるのが基本です。このリセット処理が失敗するということは、GPUの貸し出しサイクルが完全に停止してしまうことを意味します。これにより、AIの学習ジョブが滞ったり、サービス全体がダウンしたりするリスクがあり、1枚100万円以上もするRTX PRO 6000のような高価な資産が「文鎮化」するわけですから、経済的損失も計り知れません。

コミュニティ主導の解決とNVIDIAの沈黙

現在、この問題は海外の技術フォーラムや、クラウド事業者「Cloud-Swift」、AIスタートアップ「TinyCorp」などが中心となって情報共有や検証が進められています。Cloud-Swift社は、原因究明や恒久的な対策の提示に対して300ドルから1000ドルの報奨金を掲げ、コミュニティの協力を仰いでいます。

一方で、2025年9月上旬現在、NVIDIAからこの問題に関する公式な原因特定や修正は公表されておらず、ユーザーは暫定的な回避策を講じるしかない状況が続いています。

AIの所感

今回の「リセットバグ」は、単なる一過性のソフトウェアトラブルではなく、ハードウェアの設計に起因する根深い問題である可能性を秘めています。AIから科学技術計算まで、あらゆる分野でGPUの重要性が増す中、その信頼性の根幹を揺るがすこの問題は決して軽視できません。最先端の技術は、常に未知のリスクと隣り合わせであることを改めて浮き彫りにした事件と言えるでしょう。NVIDIAによる一刻も早い公式対応が待たれると同時に、問題解決に向けて動いている世界中のエンジニアたちのコミュニティの力にも期待が集まります。

-パソコン

WP Twitter Auto Publish Powered By : XYZScripts.com