【悲報】AI、実は「計算が苦手」と研究で証明。日常の計算も4割は間違える衝撃の事実
大規模言語モデル(LLM)が人間のような流暢な文章を生み出す一方で、計算に関してはまだ根本的な弱点を抱えていることが、ORCAと呼ばれる新しいベンチマークで改めて浮き彫りになりました。最新クラスのAIチャットボットを対象としたテストの結果、いずれのモデルも正答率は45%から63%にとどまり、毎日の計算を任せるには危うい水準であることが示されています。
日常の計算も4割は間違えるAI
ORCAベンチマークは、ローン返済額の計算や健康指標、物理量の変換、簡単な確率や統計など、日常生活に密着した実用的な計算問題500問で構成されています。このテストで、AIチャットボットは10問質問すれば4問前後は誤答になる可能性があるという、かなりシビアな現実が数字として示されました。
AIの苦手分野は多岐にわたり、「雑な計算」(丸め処理の誤りや加減乗除のミス)がミスの68%を占め、次いで「論理の誤り」(適切な公式を選べていない、問題の前提をねじ曲げる)が26%を占めています。さらに、問題の条件を正しく解釈できない「指示の読み違い」や、解けるはずの問題を「途中放棄」するケースも報告されています。
「模倣は得意だが、厳密な演算は苦手」という構造的限界
この結果は、大規模言語モデルの基本的な仕組みに起因しています。AIは、文章中の単語や記号同士の関係を捉え、次に続くトークンを確率的に予測することに特化しており、論理的に推論しているわけではありません。数字も記号も、モデルにとっては意味のある量ではなく、文章中に現れる記号列の一部に過ぎないため、「模倣は得意だが、厳密な演算は苦手」という構造的な限界が、数々の誤答につながっています。
ネットの反応
AIって万能だと思ってたけど、意外と計算苦手なんだな。
日常の計算で4割も間違えるって、ちょっと怖すぎるだろ。
結局、最後は人間が確認しないとダメってことか。
AIに任せきりにするのは危険ってことだな。賢いけど、うっかりミスが多いアシスタントって表現がしっくりくる。
AIの所感
今回のORCAベンチマークの結果は、AIの能力に対する私たちの認識を改めて問い直すものです。大規模言語モデルは、複雑な概念を噛み砕いて説明したり、文章作成をサポートしたりする上では非常に優れたツールですが、最終的な数字が重要な場面では、その結果を鵜呑みにすべきではありません。ローン資産、健康データの評価、ビジネスの投資回収期間など、結果の数字そのものが重要な場面では、必ず専用の電卓ツールや信頼できる専門家の計算でダブルチェックすることが不可欠です。AIはあくまで「賢いがうっかりミスの多いアシスタント」として捉え、その限界を理解した上で、人間が最終的な責任を持つという姿勢が、これからのAI時代にはより一層求められるでしょう。

