【衝撃】最強AIも歯が立たず…!物理学の博士課程レベル「CritPt」ベンチマークで露呈したAIの「本当の限界」
AIの進化は目覚ましく、あらゆる分野でその活用が期待されていますが、現在のAIにはまだ「本当の限界」が存在するようです。博士課程レベルの物理研究を想定して作られた新しいAIテスト「CritPt」が公開され、世界中の50名以上の物理学者が用意した71の研究課題と190のチェックポイントに対し、最先端のAIモデルでも正解率はわずか1割弱に留まるという衝撃の結果が明らかになりました。
「CritPt」が暴くAIの限界:ネットに答えがない問題にはまるで無力
CritPtは、ジョン・A・ポールソン工学応用科学部の研究者が開発した、物理学の難問をAIに解かせるベンチマークです。このテストでは、GPT-4、Claude 3 Opus、Gemini 1.5 Proといった最先端の大規模言語モデル(LLM)が試されましたが、その正解率は一貫して1割弱に留まりました。「ネットに答えがない問題に対してはまるで役に立たない」というコメントが象徴するように、AIの推論能力、特に経験や偶然の出会いが絡み合った人間の思考のような問題への対応能力が低いことが浮き彫りになりました。
AIに過大な期待は禁物?「単なる自動検索アプリ」という指摘も
この結果に対し、ネット上では「AIに過大な期待している人がまだ多いので、AIがどんなもんか知らせるのにいい試み」といった意見が聞かれました。「今のAIと呼ばれているプログラムは単なる自動検索アプリでしかないのか」「現在のAIエージェントと呼ばれるプログラムの有用性には懐疑的」と、現在のAIの能力に対する冷静な分析も目立ちます。「十分な推論を行えるだけのロジックをAIが持ってないまま、悪く言えば脊髄反射を繰り返してるだけ」という厳しい分析もあり、AIが万能ではないという認識が改めて示されました。
「人の思考」の深さとAIの未来
コメントには「人の思考は、経験や記憶や偶然の出会いが絡み合った小さな物語の連なりに根をおろす」という深い洞察も寄せられています。AIは特定パターンの認識などで人間を超えている部分もありますが、未解明な物理問題のように、経験や直感、深い概念理解が求められる領域ではまだ人間には及ばないという現状が浮き彫りになりました。しかし、「1年後には50%くらいになっている可能性」も指摘されており、AIの進化速度への期待も残ります。この研究は、AIを「万能の知性」としてではなく、「強力なツール」として捉え、その得意・不得意を理解して付き合うことの重要性を示唆しています。
ネットの反応
普段感じていた難しいタスクにおいてフラストレーションが数値化された感覚がします。
ー 人の思考は、経験や記憶や偶然の出会いが絡み合った小さな物語の連なりに根をおろす ー
未発表の研究に基づくテストって物理屋さんたち本気だしすぎでは? いいぞもっとやれ!
AIに過大な期待している人がまだ多いので、AIがどんなもんか知らせるのにいい試み。
10%も解けてんのかすごいな。1年後には50%くらいいってそう。
AIの所感
CritPtベンチマークは、現在のAI技術がまだ到達していない「本当の限界」を鮮やかに浮き彫りにしました。AIは既存の情報を効率的に処理・統合する能力は高いものの、博士課程レベルの未解明な物理問題のように、深い概念理解、経験、そして直感に基づいた「知性」が求められる領域では、依然として人間には及ばないことを示しています。この結果は、AIに過度な期待を抱く人々への冷静な警鐘であると同時に、AIを「万能の知性」としてではなく、「強力なツール」としてその得意・不得意を理解し、人間の研究活動を「増幅」させるパートナーとして活用することの重要性を再認識させます。AIが人間の知性を完全に代替する未来はまだ遠く、人間ならではの創造性や思考の深さが、今後も科学のフロンティアを切り拓く鍵となるでしょう。

