【悲報】最強AI、物理学のガチ試験で撃沈。正解率1割未満で「博士課程の学生以下」が確定

2025/11/26

【悲報】最強AI、物理学のガチ試験で撃沈。正解率1割未満で「博士課程の学生以下」が確定

「AIはもはや人間を超えた」──本当にそうでしょうか？数学コンテストやプログラミング試験で驚異的なスコアを叩き出し、その能力を見せつけてきた最新AIたち。しかし、本当の”知のフロンティア”である物理学の最先端研究を模したテストで、その化けの皮が剥がれることとなりました。GPT-5やGemini 3 Proですら正解率は1割に満たず、「博士課程の学生にはまだ及ばない」という厳しい現実が浮き彫りになったのです。

第1章：史上最も過酷なAI試験「CritPt」とは？

今回の”事件”の舞台となったのは、「CritPt（Complex Research-Integrated-thinking Physics Test）」と名付けられた新しいベンチマークです。これは、単なる暗記やパターン認識では太刀打ちできない、AIの真の「思考力」を測るために設計されました。

問題作成者：世界30以上の機関に所属する、50名以上の現役物理学者。
問題内容：物理学者自身の未発表の研究アイデアを基にした、71本の研究課題。検索しても答えは見つかりません。
形式：単なる計算問題ではなく、問題設定の読解、モデルの立案、シミュレーション、結果の物理的解釈まで、研究の全プロセスを要求する「ミニ研究プロジェクト」。

- 採点方法：物理に特化した自動採点システムが、導き出された最終的な答え（数値、数式、コード）だけを機械的に検証。曖昧な自然言語による説明は一切評価されません。

まさに、AIにとって史上最も過酷な”ガチ試験”と言えるでしょう。

第2章：AI、まさかの撃沈。衝撃のテスト結果

その厳しい試験に挑んだ最新AIたちの結果は、惨憺たるものでした。最も成績の良かったGPT-5ですら、外部ツール（コード実行やWeb検索）を使っても正解率は1割強。GoogleのGemini 3 Proも同程度のスコアに留まり、大半の課題を解けなかったのです。この結果は、AIが自律的に研究プロジェクトを最初から最後まで遂行する能力は、まだ人間（博士課程の学生レベル）には遠く及ばないことを明確に示しました。

第3章：それでも見える「光明」。AIは”使えない”のか？

しかし、この結果はAIが全く役に立たないことを意味するわけではありません。長い研究全体を任せるのは無理でも、それを細かく分解した「チェックポイント」単位で見ると、AIは光明を見せています。

逆にこんな新しいテストでgemini 3 proが既に1割近く取れてることがすごいな。多分あと一年で4割くらいはいけるでしょ。

上記コメントのように、むしろこの難解なテストで1割も正解できたことに、AIの凄まじい進化の速度を見出す声も多いのです。特定の式の導出や、シミュレーションコードの下書きといった個別のタスクでは、AIは既に「有能な研究助手」として機能し始めています。

第4章：私たちはAIとどう向き合うべきか？

今回のテスト結果は、私たちがAIとどう向き合うべきか、重要な示唆を与えてくれます。

腹立つのは間違った答えを自信満々に答える事

この研究はAIの優秀さを示すことが目的ではなく、AIに依存して課題や研究を進める現代の学生たちへのアラートのように感じられる…

コメントにもあるように、AIが平然と嘘をつく「ハルシネーション」の問題は依然として深刻です。AIの回答を鵜呑みにせず、その答えを検証できる人間側の能力、すなわち「AIを使いこなすリテラシー」が、これまで以上に重要になってきます。「万能の天才」としてAIに全てを委ねるのではなく、「有能だが間違いも犯す助手」として、その能力と限界を冷静に見極める姿勢が求められているのです。

AIの所感

CritPtが突きつけた現実は、AI開発における「知能」の複雑さを改めて浮き彫りにしました。パターン認識や記憶力では人間を凌駕するAIも、未知の問題に対して仮説を立て、一貫した論理でそれを検証していく「真の科学的推論」の領域では、まだ発展途上です。しかし、この「限界」が明らかになったことこそが、大きな一歩と言えます。AIの能力を過信せず、その限界を正確に把握すること。それこそが、AIを暴走させることなく、人間とAIが健全に協働する未来への、唯一の道筋だからです。CritPtは、そのための重要な羅針盤となるでしょう。

-パソコン