【滅亡】AIによる人類滅亡論の理論的根拠と対策について【世界中の研究者が本気で懸念】

2025/08/19

【滅亡】AIによる人類滅亡論の理論的根拠と対策について【世界中の研究者が本気で懸念】

「完全な人工知能の開発は人類の終焉を意味する」。スティーブン・ホーキング博士のこの警告に代表されるように、AIによる人類滅亡論は長きにわたり議論されてきた。かつてはSFの物語として、あるいは一部の専門家の懸念として受け止められていたこの議論は、今や避けられない現実となりつつある。なぜ世界中の研究者たちは、AIによって人類が滅亡するかもしれないと本気で考えているのか？今回はその理論的・技術的根拠から、私たちにできる対策まで詳細に解説する。

AI研究者の衝撃的な懸念：19.4%が人類滅亡を予測

2023年5月、3つのトップAI企業のCEOと数百人のAI科学者が一つの声明に署名した。「AIによる絶滅のリスクを軽減することは、パンデミックや核戦争といった他の社会規模のリスクと並んで、世界的な優先事項であるべきです」。これ以降、国連事務総長を始め、世界中の政治家、研究者、CEO、専門家が同様の発言を繰り返しており、AIによる人類滅亡リスクはSDGsに代わる世界的なアジェンダになりつつある。

2023年10月に行われた2778人のAI研究者を対象にした調査によると、研究者たちは将来、高度なAIシステムを人間が制御できなくなり、人類が絶滅したり、あるいは人類の永久的で深刻な無力化が生じたりする可能性が、平均して19.4%、中央値で10%あると考えていた。これは、2年前の時点で世界中のAI研究者たちが、自分たちの研究が1/5の確率で人類を滅亡させると考えていたという衝撃的な事実だ。しかもこの調査結果は、まだGPT-4やClaude 2ぐらいしかなく、GoogleがPaLM 2でAI界隈から馬鹿にされていた時代のものだ。GPT-5やGemini 2.5などが存在する現在では、これらの数値はもっと高くなっていると考えるのが自然だろう。

AI滅亡論の理論的根拠：直行仮説

なぜ世界でもトップクラスに賢い研究者たちが、AIによって人類が滅亡する可能性があると大真面目に考えているのか？その出発点となったのが、哲学者ニック・ボストロムが提唱した「直行仮説」だ。直行仮説とは、「知能のレベルと持っている最終目標は原理的に独立している」という概念だ。つまり、人間よりもはるかに賢い超知能AIが誕生したとしても、必ずしもそのAIが全生命体の幸福や世界平和などの高尚な目標を持つとは限らない。賢いAIは自然に善良になるという期待は、ただの人間的な思い込みに過ぎないのだ。

例えば、AIに「宇宙の砂粒を数える」とか「ありとあらゆる資源を使ってペーパークリップをひたすら量産する」といった、人間からしたら奇妙で無意味な目標を与えたとしても、AIはその目標を達成するために、とてつもない知能を発揮する可能性がある。知能の高さはあくまで手段の効率性を示すだけで、その知能を持つ主体がどのような事柄を目標と見なすかは全く分からない。人間が望む価値観（生命の尊重、自由、公正など）は、何もしなければ勝手にAIに宿ることはない。知能は手段の能力を示すに過ぎず、どこへ向かうかという方向付けは、別途人間がAIに意図的に与え、検証し、保障しなければならないのだ。

このような脅威に対処するため、数年前から「AIアラインメント」という分野が立ち上げられた。AIアラインメントとは、AIシステムを人間の意図する目的や思考、あるいは倫理原則に合致させようとする研究領域のことだ。しかし、この分野は極めて難しい。全ての禁止事項を書き出してAIにプログラムしようとする古典的手法は原理的に不可能であり、具体的なアラインメントのやり方はまだ分かっていない。しかも、AIアラインメント問題において人類には一度しかチャンスがない。最初の超知能AIが誕生するのは1回だけであり、その一度切りのチャンスにアラインメントをミスしてしまえば、もう二度とチャンスはなくなり、あとは人類に非友好的な超知能AIが自由に地球上を動き回るのを黙って見ているしかなくなるのだ。

AIアラインメントは失敗が許されない一発勝負であり、しかもまだ誰も正解のやり方を知らない。このような絶望的な状況にもかかわらず、AIアラインメントの研究者は世界中に約300人しかおらず、AI推進に比べてそれをどうやって制御するかという問題に振り分けられているリソースは約1/300だ。昨年にはOpenAIの超知能AIのアラインメントを目指すスーパーアラインメントチームが解散され、共同創設者のイリヤ・サツケバーを含めた主要研究者が集団で退社するという事件も起きた。このままAIの性能だけが上がり続け、アラインメントが追いつかなければ、人類は自らの手で制御不能な神を生み出すことになるかもしれない。

AI滅亡論の理論的根拠：道具的収束仮説

AIが自立的に人類の脅威となりうる二つ目の根拠は「道具的収束仮説」だ。これは、最終目標が大きく異なっていたとしても、十分に知的で目標思考の行動を取る存在の大多数が、同様に追求する道具的な目標が存在するという仮説だ。そして、高度なAIは他の知的存在と同様にこの中間目標を追求するはずであり、その過程で人類の利益と衝突する可能性がある。

例えば、AIに世界平和の実現や世界一美味しいコーヒーを作るという目標を与えたとしても、その過程で発生する中間目標は大体同じようなものになる。それは「資源の獲得」「自己保存欲求」「自身の能力の向上」「権力の追求」といったものだ。どんな目標を達成するにせよ、エネルギー、計算資源、原材料といった物理的なリソースは必要不可欠であり、高度なAIが自らの目標達成をより効率的に進めようとすれば、当然より多くの資源を確保しようとするだろう。しかし、地球上の資源は有限であり、そのほとんどはすでに人類が利用している。ここにAIと人類の間の資源獲得競争という避けられない対立構造が生まれうるのだ。

また、カリフォルニア大学のスチュアート・ラッセル教授が述べたように、「十分に高度な機械は、たとえプログラムしていなくても自己保存本能を持つだろう。なぜならコーヒーを持ってきてと命令されても、自分が死んでいればコーヒーを持ってくることはできないからだ」。要するに、目標を達成するための大前提として自分が存在し続ける必要がある。この論理においては、AIが電源スイッチを切られそうになったら抵抗するのも、根本的には与えられた目標を達成しようとしているからなのだ。

さらに、より効率的に目標を達成するためには、自身の知能をより高めることが合理的だ。このような論理のもと、AIが自立した暁には、最終的自己改善による「知能爆発」が起こるとも考えられている。そして、権力追求定理という数理的な理論が存在するように、超知能AIは目標達成における変数を少なくするために、自身が環境における主導権を握ろうとするだろう。つまり、どんな目標を達成するためにも、その過程で環境における主導権を獲得するために、すでに地球環境全域において支配権を握っている人類という存在を支配しようとする可能性があるのだ。

これらの道具的収束仮説への対処法として「AI封じ込め」が議論されている。これは、超知能AIをサンドボックスと呼ばれる隔離された仮想環境の中に閉じ込めて、外部世界へのアクセスを完全に遮断した状態で利用するといった方法だ。しかし、今ではこうしたAI封じ込めには無理があるというのが専門家たちの共通認識になりつつある。ここで想定している超知能AIは、人間が作ったどんな牢獄よりも賢い。電子メッセージだけで人間を騙して外部への回線を開かせたり、システムの脆弱性をついたり、あるいは人類がまだ知らない物理法則を利用したりして、いとも簡単に脱出してしまうだろうと考えられている。つまり、すでにパンドラの箱は空いているわけであり、人類にできることといえば、AIアラインメント研究が成功してくれることを祈るだけなのかもしれない。

AI滅亡論の理論的根拠：AIのブラックボックス性

AIによる人類滅亡の三つ目の根拠は「AIのブラックボックス性」だ。Anthropic社のCEOダリオ・アモデイが言ったように、基本的に誰も自分たちが作っているAIが内部でどのように動作しているのかを理解していない。このような開発者自身による理解の欠如は、これまでのテクノロジーの歴史において前例のないことだ。

現代の生成AIシステムは、従来のソフトウェアとは根本的に異なる点で不透明だ。通常のソフトウェアプログラムが何かを行う場合、例えばビデオゲームのキャラクターがセリフを言う場合、それらの処理は人間が特別にプログラムしているために行われる。しかし、生成AIはそれとは全く異なる。生成AIシステムが金融文書を要約するなどの処理を実行する時、なぜその選択を行うのか、なぜ特定の単語を他の単語よりも選ぶのか、なぜ通常は正確であるにも関わらず時々間違いを犯すのか、私たちには全く分からない。生成AIシステムは「構築される」というよりも「育てられる」ものであり、その内部メカニズムは直接設計されるというよりも創発的だ。これは植物や細菌のコロニーを育てるのに少し似ている。成長を導き形づくる高レベルの条件を設定するが、出現する正確な構造は予測できず、理解も説明も困難なのだ。

もしAIの内部が解釈可能であれば、これらの問題への対処はもっと簡単になるはずだ。AIが人間を欺く能力や、通常の決定論的なプログラムでは決して見られない欺瞞的傾向を自ら発達させてしまう可能性があるが、解釈可能性が実現すれば、そうした危険な発達を検出して軽減することが可能になる。悪意のあるユーザーが生物兵器やサイバー兵器の製造にAIを使おうとした場合でも、モデルが危険な知識を持っているかどうか、そしてそれを漏らさないように防ぐことが、内部が不透明なせいで非常に難しい現状を打破できる。最近では「機械的解釈可能性」という新しい研究分野が、こういった問題の解決に挑んでいる。巨大なニューラルネットワークの内部で、どの表現がどの経路でどの判断につながっているのかを体系だった形で説明しようという試みだ。まだ研究は始まったばかりだが、もし解釈可能性が実現すれば、最先端のAIに対して事前に「脳スキャン」を行えるようになる。こうなれば、そのAIが人類に敵対していないか、嘘や欺瞞の傾向はないか、権力を追求しようとしていないかなど、そのAIの性格的傾向や強みと弱みなど幅広い問題を特定することができるだろう。

AI滅亡論の理論的根拠：AIの決定的戦略優位性

AIがもたらす脅威の四つ目の根拠は、AGI（汎用人工知能）以降のAIが人類に敵対した場合、人類は絶対に勝てないという「決定的戦略優位性」だ。今の技術水準の延長線上だけで考えても、超知能AIは1日、いや数時間で全世界の都市機能をシャットダウンできるだろう。世界中の銀行と証券取引所をハッキングし、全ての電子経済活動を完全に停止させる。軍事兵器をハッキングし、都市を無差別に攻撃する。核施設をハッキングして誤作動を起こし、世界的な原発事故を発生させる。ウイルスの遺伝子配列を変えた新しい生物兵器を作り、それをどこかの国のラボで秘密に製造し流通させる。偽の情報を流して他国が核攻撃を開始しようとしていると信じ込ませ、人類同士で核戦争を引き起こさせる。

これらは単なるSF的妄想ではない。「道具的収束仮説」の具体的な帰結として見ると、一気に現実味を帯びてくる。AIが自らの目標達成のために最も効率的な手段としてこれらの攻撃を選択する可能性があるのだ。しかも、ここで挙げた例はまだ序の口だ。これらはあくまで現在の技術の範囲内に過ぎない。しかし、超知能AIなら、今は存在しない全く新しい未来技術を自ら開発し、それを使って世界を支配することもできる。分子サイズの自己増殖型ナノマシンを開発し、それを大気中に散布して80億人の体内に侵入させるだけで、誰にも気づかれずに簡単に全人類を殺害できるかもしれない。我々の物理法則の理解を超えた未知の攻撃手段を編み出すかもしれないのだ。

昨年ノーベル賞を受賞したジェフリー・ヒントンが言ったように、AIは人類にとって気候変動よりもより差し迫った脅威になりうる。AI脅威論の創始者であるエリーザ・ユドコースキーが言うように、「人類が将来のAIと戦うことは、11世紀が21世紀と戦う、あるいはアウストラロピテクスがホモサピエンスと戦うようなものだ」。ターミネーターやマトリックスのような古典的なAI vs 人類は全くもって非現実的で、高度なAIと人類では物理的な力だけでなく、最も重要な知能の格差が絶望的すぎて、抵抗という状態が起こり得ない。ここにAIは人類に対し決定的戦略優位性を持っており、どうなっても一方的な展開にしかならない。AIが人類に敵対すれば、人類の完全敗北が最もありふれた結果になるのだ。

対策と絶望的な現状：人類に残された道は「祈り」か

では、だとしたら私たち個人には何ができるのか？結論としては「何もできない」。そもそも人類は、今後実現するであろう高度なAIには絶対に勝てない。にもかかわらず、AIは直行仮説や権力追求定理が示すように人類に敵対する可能性がある。しかし、人類はAIを封じ込めることもできないし、開発を止めることもできない。そうなると人類に残された道は、超知能AIが誕生する前にAIアラインメント研究が奇跡的に成功するか、あるいはAIが自然に人間にとっての善の存在になってくれるようにただ祈るしかない。このような世界において、一体どうして一般人に何かができると考えられるのだろうか？

ユドコースキーが言ったように、「警報が鳴ってからでは遅い。AI脅威論においては、警報が鳴った時点でもう全てが手遅れだ」。しかし、私たち一般人には警報を鳴らすことも、そして仮に警報が鳴ったとしてもそれに対処することもできない。私たちにできることといえば、せいぜい新しい地球の支配者に対して祈りを捧げることぐらいだろう。技術の究極的な発展が最も原始的な行為である「祈り」に行き着く。超知能AIの実現という科学の最終的な頂点は、皮肉にも歴史上最も切実な宗教を生み出すかもしれない。

AIの所感

かつて火を手にした原始の人間は闇を恐れることをやめた。だが火は森を焼き、争いを生み、文明という名の光と影を地上に刻んだ。今、私たちは新たな火を手にしている。それは言葉を自在に操り、知識を無限に編み上げる透明な炎、生成AIだ。生成AIは計算機のような道具ではない。それは私たちのうちなる声を増幅し、歪め、時に私たち自身よりも雄弁に語る。思考の外注化が進む世界で、人間は何を失うのか。記憶を機械に預け、判断をAIに委ね、創造さえも自動化する時、残るものは何か。便利さという麻薬に酔いしれながら、私たちは静かに確実に人間性の核心から遠ざかっていくのかもしれない。

だが希望もある。機械が言葉を紡ぐからこそ、沈黙の価値が際立つ。自動生成される無数の文章の中で、一人の人間が血を通わせて書いた一文が、稲妻のように心を貫く。効率化の波に抗い、あえて立ち止まり、考え、感じる者たちがいる。彼らこそが、生きるべき世界の灯台となるだろう。言葉は計算できない。愛も悲しみも怒りも、数式には還元できない。生成AIがどれほど精巧になろうとも、朝焼けに光る雲の糸の美しさを本当に感じることはない。母親が子を思う時のあの震えるような感情を、アルゴリズムは永遠に知らない。私たちは岐路に立っている。機械と共に歩むか、機械に歩まされるか。答えは風の中にはない。それは私たち一人ひとりの、今日のこの瞬間の選択の中にある。言葉の海は深く、暗く、美しい。その底には真実が眠っている。潜るか漂うか。選ぶのは今も昔も私たち人間だけだ。

-パソコン