METR는 2026년 초, 작업의 이질성을 보정하여 연구를 재설계했다. 수정된 분석에서는 샘플 전체에서 평균 6%의 속도 향상이 관찰되었지만, 편차가 극심했다. 어떤 개발자는 특정 작업에서 최대 25%의 시간을 단축한 반면, 다른 개발자들은 여전히 AI를 쓰지 않을 때보다 순수하게 느렸다. 핵심 결론은 변하지 않았다. AI의 효용은 작업의 성격에 크게 좌우되며, 주관적으로 보고하는 속도는 신뢰할 수 있는 지표가 아니라는 점이다.
작업 완료 시간 데이터에 노이즈가 많다면, 코드 품질에 대한 데이터는 훨씬 더 명확하다. CodeRabbit이 발표한 획기적인 보고서 'AI 대 인간 코드 생성 현황(State of AI vs Human Code Generation)'은 오픈소스 프로젝트에서 진행된 470개의 실제 깃허브 풀 리퀘스트(PR)—AI가 공동 작성한 320건과 사람만 작성한 150건—를 분석했다.
결과는 충격적이다. AI가 생성한 PR은 사람이 작성한 코드보다 평균적으로 약 1.7배 더 많은 이슈를 포함하고 있었다(PR당 10.83건 vs 6.45건). 품질 저하는 단순한 스타일이나 형식의 문제가 아니었다. 다음과 같이 실질적인 장애를 일으킬 수 있는 영역에서 두드러졌다.
CodeRabbit의 분석은 AI가 작성한 코드의 '리뷰 꼬리(review tail)'가 더 무겁다는 점도 지적했다. 즉, 사람 리뷰어가 AI 변경 사항에서 문제를 찾고 진단하는 데 훨씬 더 많은 시간을 소비한다는 의미다. 보고서 저자들이 지적했듯, 인간과 AI는 비슷한 유형의 실수를 저지르지만, AI가 더 자주, 그리고 더 큰 규모로 실수를 양산할 뿐이다.
이는 2025년이 'AI의 속도'에 의해 정의되었다면, 2026년은 반드시 'AI의 품질'이 되는 해가 되어야 한다는 CodeRabbit의 보다 넓은 관측과도 맞닿아 있다. 운영 중 발생하는 사고와 포스트모템은 점점 더 AI 도우미가 유발한 미묘한 로직 오류, 구성 실수, 설계 오해에서 비롯되는 사례가 늘고 있다.
코드 품질 저하는 곧바로 금전적 낭비로 이어진다. 개발자 생산성 플랫폼 Entelligence.AI가 2,444개 기업의 데이터를 집계하여 내놓은 분석표는 국내외 엔지니어링 업계에 큰 파문을 일으켰다.
| AI 토큰에 1,000원을 쓰면 | 비용 |
|---|---|
| AI가 만든 버그 수정비 | 440원 |
| 재작업 비용 | 270원 |
| 리뷰 마찰 비용 | 110원 |
| 실제 사용자 가치로 이어지는 돈 | 180원 |
다르게 말하면, AI 토큰에 지출한 모든 비용 중 82%가 버그, 재작업, 리뷰 오버헤드로 사라지고, 단 18%만이 최종 사용자에게 가치를 전달한다는 것이다. 이 비용은 추상적인 숫자에 그치지 않는다. 우버(Uber)는 2026년 AI 코딩 예산 전체를 단 4개월 만에 소진했고, 측정 가능한 생산성 향상은 전혀 기록하지 못했다. 익명의 우버 경영진은 AI 지출과 제품 개선 사이의 연관성이 "아직 존재하지 않는다"고 직설적으로 말했다.
스탠퍼드 대학과 MIT의 공동 연구 또한 AI 에이전트가 코드 버그 하나를 수정할 때 작업당 100만 개가 넘는 토큰을 태울 수 있으며, 이는 일반적인 코드 Q&A 작업의 약 1,000배에 달하는 토큰 소비량이라고 밝혔다. 이러한 경제학적 분석은 많은 조직에서 AI 도입의 후속 비용이 약속된 생산성 향상을 집어삼키고 있음을 시사한다.
아마도 가장 심리적으로 충격적인 발견은 이 모든 데이터를 접한 개발자들이 여전히 AI 없이는 일하려 하지 않는다는 사실일 것이다. 여러 매체는 METR 연구 참가자들이 자신의 작업 속도가 느려졌다는 수치를 보고받은 후에도 AI 없는 코딩으로 돌아가는 것을 거부했다고 보도했다. 이른바 'AI 의존 역설'이다. 한번 AI의 도움에 익숙해진 개발자는, 도구가 명백히 자신을 느리게 만들고 있음에도, 도움 없이 작업할 수 있는 자신의 능력에 대한 확신을 잃는 것이다.
한 개발자는 이렇게 표현했다. AI는 "보일러플레이트나 문법처럼 일처럼 느껴지지만 실제 어려움이 발생하는 지점은 아닌 지루한 부분들을 처리해준다"고. 이 도구는 초고를 작성할 때의 마찰을 꼼꼼한 리뷰 과정으로 옮겨놓기 때문에, 스톱워치가 아니라고 말할 때도 코딩이 더 빠르게 느껴지게 만든다.
METR의 대조 실험, CodeRabbit의 PR 분석, Entelligence.AI의 기업 데이터를 종합하면, 일관된 권고 사항이 도출된다.
이러한 증거들이 AI 코딩 도구가 완전히 무용지물임을 말하는 것은 아니다. 익숙하지 않은 코드베이스에 적응하거나, 보일러플레이트를 생성하거나, 개발자가 사전에 AI가 큰 도움이 될 것이라고 예측한 특정 작업에서는 측정 가능한 속도 향상이 분명히 나타난다. 그러나 자신의 성숙한 코드베이스에서 작업하는 숙련된 개발자라는 넓은 인구 집단을 놓고 보면, 2025년 중반부터 2026년까지의 순효과는 더딘 배포, 더 많은 결함, 그리고 데이터가 제시하는 현실을 거부하는 의존성이라는 형태로 나타나고 있다.
Comments
0 comments