その後、METRは2026年初頭にタスクの不均一性を調整するため研究デザインを見直した。改訂版の分析では、サンプル全体で6%の速度向上という控えめな結果が示されたが、そのばらつきは極めて大きく、一部の開発者は特定のタスクで最大25%の効率化を達成した一方で、全体としては依然として遅くなる開発者もいた 。ここから導き出される核心は変わらない。AIの恩恵はタスクの内容に大きく依存し、開発者自身の申告による速度は信頼できる指標ではないということだ。
タスク完了時間に関するデータにノイズが多いとしても、コード品質に関するデータはより明確だ。CodeRabbitが発表した画期的なレポート「State of AI vs Human Code Generation」は、オープンソースプロジェクトから470件の実際のGitHubプルリクエスト(AIによる共著320件、人間のみによる作成150件)を分析したものである 。
その結果は衝撃的だ。AIが生成したプルリクエストには、人間が書いたコードと比較して、平均で約1.7倍もの問題点が含まれていたのである(プルリクエストあたりの問題数:AIが10.83件、人間が6.45件) 。品質低下はスタイルやフォーマットの問題に留まらない。実際のインシデントに直結する領域に集中していた。
CodeRabbitの分析では、AIが作成したコードには「レビューのしっぽ(heavier review tail)」が存在することも確認された。これは、人間のレビュアーがAIによる変更点の問題を発見し診断するのに、不釣り合いなほど長い時間を費やしていることを意味する 。レポートの著者が述べるように、人間とAIは同じ種類のミスを犯すが、AIの方がより頻繁に、そしてより大規模にミスを生み出すのだ
。
このパターンは、CodeRabbitの「2025年はAIのスピードの年であったが、2026年はAIの品質の年でなければならない」という、より広範な問題認識とも一致する。運用インシデントや障害分析(postmortems)の原因は、AIアシスタントによって持ち込まれた、微妙なロジックエラー、設定の見落とし、設計上の誤解にまで遡ることが増えているのである 。
この品質低下は、直接的な金銭的浪費に直結する。開発者生産性プラットフォームのEntelligence.AIが、2,444社のデータを集計したところ、エンジニアリング業界に波紋を広げる内訳が明らかになった 。
| AIトークン投資1ドルの行方 | 金額 |
|---|---|
| AIが生成したバグの修正 | 0.44ドル |
| 手戻り(Rework) | 0.27ドル |
| レビューの摩擦 | 0.11ドル |
| ユーザーに届く実質的な価値 | 0.18ドル |
言い換えれば、AIトークンに費やされる1ドルあたり、82セントがバグ修正、手戻り、レビューのオーバーヘッドに消えている。ユーザー価値に結びつくのは、わずか18セントに過ぎないのだ 。このコストは机上の空論ではない。Uberは2026年のAIコーディング予算を4ヶ月で使い果たし、測定可能な生産性向上はゼロという結果に終わった。匿名のUber幹部は、AIへの支出とプロダクト改善の関連性について「まだ存在しない」と率直に述べている
。
スタンフォード大学とMITの共同研究によれば、AIエージェントがコードのバグを一つ修正するだけで、100万トークン以上を消費する可能性があることが判明している。これは、標準的なコードQ&Aタスクの約1,000倍というトークン消費量だ 。この経済性は、多くの組織にとって、AIの導入がもたらす下流工程のコストが、期待された生産性向上分を食いつぶしている可能性を示唆している。
おそらく最も心理的に印象的な発見は、これらのデータを目の当たりにした開発者たちが、それでもなおAIなしでの作業を拒否したことだろう。METRの研究参加者は、自分たちの作業が遅くなったというデータを見せられた後も、AIを使わないコーディングに戻ることに強い抵抗を示したと、複数のメディアが報じている 。これは「AI依存のパラドックス」と呼ばれている。一度AIの支援に慣れてしまうと、たとえそのツールが自身の作業を遅くしていることが明らかでも、開発者はAIなしの自分の能力に自信を失ってしまうのだ
。
ある開発者が表現したように、AIは「退屈な部分、つまりボイラープレート(定型的なコード)や構文といった、作業のように感じるけれど実際の難しさが存在する部分ではないところ」を処理してくれる 。ストップウォッチが何と言おうと、摩擦が「初期の原稿作成」から「綿密なレビュー」へと移ることで、コーディングという作業を「より速く」感じさせてしまうのだ。
METRの管理された試験、CodeRabbitのプルリクエスト分析、そしてEntelligence.AIのエンタープライズデータを通じて、一貫した推奨事項が浮かび上がってきている。
これらのエビデンスは、AIコーディングツールが無価値であることを示唆しているわけではない。不慣れなコードベースへのオンボーディングや、定型的なコードの生成、そして事前に「AIの助けが大いに有効だろう」と開発者が予測したタスクといった、特定の状況下では、測定可能な速度向上が確かに見られる 。しかし、自身のよく知る大規模なコードベースで作業する熟練開発者の母集団全体で見れば、2025年半ばから2026年を通じて、AIの正味の効果は「リリースの遅延、より多くの欠陥、データに抗う依存」だったのである。
Comments
0 comments