Позднее, в начале 2026 года, METR пересмотрела дизайн исследования, скорректировав его с учётом неоднородности задач. Обновлённый анализ показал скромное 6-процентное ускорение в среднем по выборке, но с экстремальным разбросом: некоторые разработчики на отдельных задачах ускорялись до 25%, в то время как другие по-прежнему показывали чистое замедление. Основной вывод остался неизменным: польза от ИИ сильно зависит от задачи, а самооценка скорости — ненадёжный показатель.
Если данные о времени выполнения задач зашумлены, то сведения о качестве кода гораздо яснее. Знаковый отчёт CodeRabbit «State of AI vs Human Code Generation» проанализировал 470 реальных pull-запросов на GitHub — 320 созданных при участии ИИ и 150 написанных только человеком — в проектах с открытым исходным кодом.
Заголовок говорит сам за себя: сгенерированные ИИ pull-запросы содержали в среднем в ~1,7 раза больше проблем, чем код, написанный человеком (10,83 проблемы на PR против 6,45). Снижение качества не ограничивалось стилем или форматированием. Оно концентрировалось в областях, которые приводят к реальным инцидентам:
Анализ CodeRabbit также выявил «более тяжёлый хвост ревью» для кода, созданного ИИ. Это означает, что проверяющие тратили непропорционально много времени на поиск и диагностику проблем в изменениях, сгенерированных ИИ. Как выразились авторы отчёта, люди и ИИ совершают одни и те же типы ошибок — ИИ просто делает многие из них чаще и в большем масштабе.
Эта картина согласуется с более широким наблюдением CodeRabbit о том, что 2025 год был определён скоростью ИИ, но 2026-й должен стать годом качества ИИ. Всё чаще в postmortem-анализах и отчётах об операционных инцидентах прослеживалась связь с малозаметными логическими ошибками, упущениями в конфигурации и недопониманием архитектуры, привнесёнными ИИ-ассистентами.
Дефицит качества напрямую превращается в финансовые потери. Платформа для измерения продуктивности разработчиков Entelligence.AI, агрегировав данные от 2 444 компаний, представила разбивку, которая вызвала резонанс в инженерных кругах:
| Куда уходит доллар | Затраты на $1 трат на ИИ-токены |
|---|---|
| Исправление внесённых ИИ багов | $0,44 |
| Переделка | $0,27 |
| Трение на ревью | $0,11 |
| Реальная ценность, доходящая до пользователей | $0,18 |
Иными словами, 82 цента с каждого доллара, потраченного на ИИ-токены, уходят на баги, переделку и накладные расходы на ревью, и только 18 центов приносят пользу конечному пользователю. Это не теоретические затраты. Uber исчерпал весь свой бюджет на ИИ для написания кода на 2026 год за четыре месяца и зафиксировал нулевой измеримый прирост продуктивности. Неназванный руководитель Uber прямо заявил, что связи между расходами на ИИ и улучшением продукта «пока не существует».
Дополнительное исследование Стэнфорда и MIT показало, что ИИ-агенты, исправляющие баги в коде, могут сжигать более миллиона токенов на задачу — примерно в 1000 раз больше, чем потребление токенов при стандартных задачах ответа на вопросы по коду. Экономика предполагает, что для многих организаций скрытые затраты на внедрение ИИ в настоящее время съедают обещанный прирост производительности.
Пожалуй, самый поразительный психологический вывод заключается в том, что разработчики, которые видят эти данные, всё равно отказываются работать без ИИ. Множество изданий сообщали, что участники исследования METR сопротивлялись возвращению к написанию кода без посторонней помощи, даже после того, как им показали их собственные цифры замедления. Это было описано как «парадокс ИИ-зависимости» — как только разработчики привыкают к помощи ИИ, они теряют уверенность в своей способности работать самостоятельно, даже когда инструмент доказанно замедляет их.
Как выразился один разработчик, ИИ «берёт на себя скучные части — boilerplate, синтаксис, то, что ощущается как работа, но не является сутью сложности». Инструмент заставляет кодинг ощущаться как более быстрый, даже когда секундомер утверждает обратное, потому что трение смещается с написания начальных черновиков на проведение дотошных ревью.
Из контролируемых испытаний METR, анализа pull-запросов CodeRabbit и корпоративных данных Entelligence.AI вырисовывается последовательный набор рекомендаций:
Новые данные не говорят о том, что ИИ-инструменты для кода бесполезны. В конкретных контекстах — погружение в незнакомые кодовые базы, генерация шаблонного кода и задачи, в которых разработчики предсказывали, что ИИ существенно поможет, — измеримое ускорение действительно проявляется. Но для более широкой популяции опытных разработчиков, работающих над своими собственными зрелыми проектами, чистый эффект с середины 2025 по 2026 год выражался в замедлении поставок, большем количестве дефектов и зависимости, которая сопротивляется данным.
Comments
0 comments