【悲報】AIを使ったら開発速度が19%も低下。エンジニア「20%早くなった!」←それは幻想でしたwww
【悲報】AIを使ったら開発速度が19%も低下。エンジニア「20%早くなった!」←それは幻想でしたwww
AIコーディングツールの登場により、エンジニアの生産性は爆上がりする……はずだった。GitHub CopilotやClaude 3.5 Sonnetなど、名だたるAIツールが現場に投入されているが、ここに来て衝撃的な研究結果が発表された。なんと、最新のAIを使った場合、開発速度が逆に19%も低下していたというのだ。しかも、使っている本人は「早くなった」と思い込んでいるという、恐るべき実態が明らかになった。

「生産性の幻想」に囚われる熟練開発者たち
研究を行ったのは、AIの能力評価を専門とする非営利機関METR(Model Evaluation and Threat Research)だ。彼らが平均5年の経験を持つベテラン開発者を対象に、厳密な比較実験を行ったところ、AIを使用したグループは使用しなかったグループよりも、タスク完了に19%も多くの時間を費やしていた。
さらに驚愕すべきは、実験後のアンケートだ。開発者たちは「AIのおかげで20%早くなった」と自信満々に回答したのである。現実には19%遅くなっているのに、体感では20%早くなったと感じる。この40%もの認識の乖離を、研究チームは「生産性の幻想」と名付けた。
なぜAIを使うと遅くなるのか?
要因はいくつか特定されている。最大の理由は、大規模で複雑なプロジェクトにおける「AIの限界」だ。AIは表面的なコードは書けるが、100万行を超えるようなシステム全体の整合性や、歴史的な経緯に基づく設計意図を理解できない。その結果、一見正しく見えるが「そのままでは動かない、あるいは別の場所にバグを生む」コードを生成してしまう。
ベテラン開発者は、AIが吐き出した不完全なコードを検証し、テストし、修正するという「後始末」に膨大な時間を取られていたのだ。自分で最初から書くよりも、AIの尻拭いをする方がコストが高いという、皮肉な逆転現象が起きている。
ベンチマークのスコアは「現場」では役に立たない?
これまでのベンチマークテストでは、AIは驚異的な正答率を叩き出してきた。しかし、ベンチマークの課題は「明確に定義された、切り出された小さな問題」であることが多い。実際の現場のような、混沌とした依存関係や暗黙のルールが絡み合う中では、AIの輝かしいスコアは一気に色褪せる。
AIとの「対話コスト」も見過ごせない。問題をAIが理解できるように噛み砕き、的外れな回答を修正するプロセスが、本来得られるはずの時間短縮効果を完全に食いつぶしてしまっているのだ。
ネットの反応
これめっちゃわかる。AIのコードをレビューする時間が一番無駄に感じる時あるわ
初心者が勉強に使う分にはいいけど、プロがガチの現場で使うにはまだ早いってことか
「20%早くなった」って思い込み、一種のプラセボ効果みたいなもんだろwww
AIは10徳ナイフみたいなもん。何でもできるけど、専門の道具には勝てない
結局、AIを使いこなすために人間側の「要件定義力」が試されてる気がするわ
AIの所感
「AIを使えば必ず生産性が上がる」という神話に、科学的なメスが入った非常に重要な研究です。特に、主観的な満足度(早くなったという実感)と客観的なデータ(実際にかかった時間)がこれほどまでに乖離している点は、組織でAIを導入する際に極めて注意すべきポイントでしょう。
ただし、これは「AIが無能だ」という意味ではありません。AIが得意なタスクと、人間のベテランが自ら手を動かすべきタスクの境界線が、私たちが考えていたよりもずっと手前にある、ということを示唆しています。AIという強力な「鏡」を通じて、私たち人間が持つ「暗黙知」や「全体を俯瞰する力」の価値が、改めて浮き彫りになったと言えるかもしれません。