【核心】AIのLLMベンチマークは正しく測定できていない事が判明!オックスフォード大学が「不正操作」の闇を暴く
【核心】AIのLLMベンチマークは正しく測定できていない事が判明!オックスフォード大学が「不正操作」の闇を暴く
OpenAIがGPT-5を発表した時、数学で94.6%、コーディングで74.9%といった印象的なベンチマークスコアを前面に押し出しました。こうした数字は投資家や消費者に対してAIモデルの優位性を示す決定的な証拠として提示されています。しかし、2025年11月7日に発表されたオックスフォード大学のオックスフォードインターネット研究所の研究は、こうした評価システムそのものの信頼性に根本的な疑問を投げかけています。研究を率いたアリン氏は「ベンチマークはAIの進歩に関するほぼ全ての主張を支えています。しかし共有された定義と健全な測定方法がなければモデルが本当に改善しているのか、それとも単に改善しているように見えるだけなのかを知ることは困難になります」と述べています。
【核心】AIのLLMベンチマークは正しく測定できていない事が判明!オックスフォード大学が「不正操作」の闇を暴く
OpenAIがGPT-5を発表した時、数学で94.6%、コーディングで74.9%といった印象的なベンチマークスコアを全面に押し出しました。こうした数字は投資家や消費者に対してAIモデルの優位性を示す決定的な証拠として提示されています。しかし、2025年11月7日に発表されたオックスフォード大学のオックスフォードインターネット研究所の研究は、こうした評価システムそのものの信頼性に根本的な疑問を投げかけています。研究を率いたアリン氏は「ベンチマークはAIの進歩に関するほぼ全ての主張を支えています。しかし共有された定義と健全な測定方法がなければモデルが本当に改善しているのか、それとも単に改善しているように見えるだけなのかを知ることは困難になります」と述べています。

445個のベンチマークを分析!驚くべき実態が明らかに
この研究はオックスフォード大学を筆頭に、スイス連邦工科大学ローザンヌ校、スタンフォード大学、ミュンヘン工科大学、カリフォルニア大学バークレー校、英国AI安全保障研究所、イェンバウム研究所、イェール大学の42名の研究者による大規模な共同研究として実施されました。研究チームが445個の大規模言語モデル向けベンチマークを詳細に分析した結果、驚くべき実態が浮かび上がりました。統計的司法を用いてモデル性能を比較しているベンチマークはわずか16%に過ぎません。これは報告された性能差やシステムの優位性の主張が真の改善ではなく偶然によるものである可能性を意味しています。さらに約半数のベンチマークが推論能力や無害性といった抽象的な概念を測定しようとしているにも関わらず、それらの用語が何を意味するのか明確な定義を提供していませんでした。共通理解がなければベンチマークが意図したものを本当にテストしているかどうかを確認することは不可能です。研究では27%のベンチマークが便宜的サンプリングと呼ばれる方法に依存していることも明らかになりました。これはランダムサンプリングや層化サンプリングのような科学的手法ではなく、単に都合のいいデータを選んで使用することを意味します。例えばAM2025のような計算機を使わない数学試験から問題を再利用する場合、各問題の数字は基本的な算術を容易にするように選ばれています。こうした問題だけでテストすると、大規模言語モデルが苦手とするより大きな数字での性能を予測できません。
ベンチマークの「3つの問題例」:書式ルールの混乱、脆弱な性能、根拠のない主張
研究論文では3つの具体的な問題例が示されています。1つ目は書式ルールの混乱です。テストがモデルに簡単な論理パズルを解かせながら、同時に非常に特殊で複雑な形式で答えを提示することを要求する場合、モデルがパズルを正しく解いても書式設定に失敗すると実際よりも悪い評価を受けてしまいます。2つ目は脆弱な性能です。モデルが短い小学生レベルの数学問題ではうまく機能するかもしれませんが、数字や言い回しを少し変えると突然失敗します。これはモデルが本当に問題を理解しているのではなく、パターンを記憶している可能性を示しています。3つ目は根拠のない主張です。モデルが医学試験の多肢選択問題で高得点を取った場合、人々はそれが医師レベルの専門知識を持っていると主張するかもしれませんが、試験に合格することは医師が実際に行うことのほんの一部に過ぎないため、結果は誤解を招く可能性があります。
ベンチマークはAIシステムの設計、展開、規制において中心的な役割を果たす
こうした問題は単なる学術的な関心事ではありません。ベンチマークはAIシステムの設計、展開、規制において中心的な役割を果たしています。研究の優先順位を導き、モデル間の競争を形作り、欧州連合のAI法を含む政策や規制の枠組みで参照されることが増えています。EU AI法は適切な技術ツールとベンチマークに基づくリスク評価を求めています。研究は、ベンチマークが科学的に健全でなければ、開発者や規制当局にAIシステムがどれほど有能か、または安全かについて誤解を招く全体像を与える可能性があると警告しています。
OpenAIとMicrosoftのAGIベンチマークの闇:「知能を測定するよりお金を測定する方が簡単」
OpenAIとMicrosoftはAGI(汎用人工知能)がいつ達成されたかを判断するための独自の内部基準を持っていると報じられています。OpenAIがAGIを「一般的に人間よりも賢いAIシステム」と漠然と定義しているこのマイルストーンは、Microsoftの独占的アクセスが外れるなど契約上の扱いが変わるため、両者にとって重要です。The Informationによると、このAGIベンチマークはOpenAIが少なくとも1000億ドルの利益を生み出すAIシステムを開発することで満たされる可能性があります。研究者たちは「知能を測定するよりもお金を測定する方が簡単であることが判明しています」と皮肉を込めて述べています。
AIベンチマークの改善策:心理測定学や医学の知見を参考に
研究者たちはこれらの問題は修正可能であると強調しています。心理測定学や医学などの分野で確立された方法を参考に、AIベンチマークの妥当性を向上させるための推奨事項を提案しています。第一に、定義と分離です。測定される概念について正確で実用的な定義を提供し、無関係な要因を制御します。第二に、代表的な評価の構築です。テスト項目が実際の条件を表し、対象となるスキルや行動の全範囲をカバーすることを保証します。第三の推奨事項は、分析と正当化の強化です。統計的司法を使用して不確実性を報告し、権威ある比較を可能にします。研究チームは構成的妥当性チェックも提供しており、研究プロジェクトのウェブサイトで公開されています。
ネットの反応
やっぱりな。AIのベンチマークっていつも都合のいい数字ばかり並べてる気がしてたんだよ。
オックスフォード大学の研究は信頼できる。これでAIの過大評価に歯止めがかかることを期待する。
GPT-5のスコアも眉唾物だったってことか。AIバブル崩壊の予兆かな。
知能を測定するよりお金を測定する方が簡単って、まさにその通り。AI企業は金儲けしか考えてないのか。
ベンチマークがAIの進歩を測る唯一の指標じゃないってことだよね。もっと多角的な評価が必要。
EUのAI法にも影響するってことは、かなり重要な研究だな。
AIの真の能力を見極めるためには、もっと厳密な評価方法が必要だ。
AIの所感
オックスフォード大学の研究が明らかにしたAIのLLMベンチマークの信頼性に関する問題は、AI技術の真の進歩を評価する上で極めて重要な課題を提起しています。統計的司法の欠如、抽象的な概念の定義不足、便宜的サンプリングへの依存といった問題は、AIモデルの性能が過大評価され、マーケティングの論理に支配されている現状を浮き彫りにしていると分析します。ベンチマークがAIシステムの設計、展開、規制において中心的な役割を果たす中で、その評価システムの健全性が確保されなければ、AI技術の健全な発展が阻害されるだけでなく、社会全体に誤解を招く可能性があることを強調します。心理測定学や医学の知見を参考に、明確な定義、代表的な評価、分析と正当化の強化といった改善策を講じることで、AIベンチマークの信頼性を向上させ、AI技術が人類に真に貢献できる未来を築くことが求められると締めくくります。この研究は、AIの「地の天秤」を正しく保つための重要な一石となるでしょう。