Sau đó, vào đầu năm 2026, METR đã xem xét lại thiết kế nghiên cứu, điều chỉnh cho sự không đồng nhất của nhiệm vụ. Phân tích sửa đổi cho thấy một mức tăng tốc khiêm tốn 6% trên toàn mẫu, nhưng với sự biến động cực lớn: một số nhà phát triển đạt được mức tăng tốc lên đến 25% trong một số nhiệm vụ nhất định, trong khi những người khác vẫn chậm hơn. Kết luận cốt lõi vẫn đúng: lợi ích của AI phụ thuộc rất nhiều vào nhiệm vụ cụ thể, và tốc độ tự báo cáo không phải là một thước đo đáng tin cậy.
Nếu số liệu về thời gian hoàn thành còn nhiều nhiễu, thì dữ liệu về chất lượng code rõ ràng hơn. Báo cáo quan trọng "Tình trạng Code do AI và Con người Tạo ra" của CodeRabbit đã phân tích 470 yêu cầu kéo (pull request) thực tế trên GitHub — 320 cái do AI đồng sáng tác và 150 cái chỉ do con người viết — trên các dự án mã nguồn mở.
Tiêu đề rất rõ ràng: các yêu cầu kéo do AI tạo ra chứa trung bình nhiều vấn đề gấp ~1.7 lần so với code do con người viết (10.83 vấn đề trên mỗi PR so với 6.45). Sự thâm hụt chất lượng không chỉ giới hạn ở phong cách hay định dạng. Nó tập trung vào các lĩnh vực gây ra sự cố thực sự:
Phân tích của CodeRabbit cũng xác định một "phần đuôi đánh giá nặng nề hơn" đối với code do AI tạo ra, có nghĩa là những người đánh giá là con người đã dành thời gian nhiều hơn một cách không tương xứng để tìm và chẩn đoán các vấn đề trong những thay đổi do AI tạo ra. Như các tác giả của báo cáo đã nói, con người và AI mắc cùng một kiểu lỗi — AI chỉ mắc nhiều lỗi hơn và ở quy mô lớn hơn.
Mô hình này phù hợp với quan sát rộng hơn của CodeRabbit rằng năm 2025 được định nghĩa bởi tốc độ của AI, nhưng năm 2026 phải trở thành năm của chất lượng AI. Các báo cáo sự cố (postmortem) và sự cố vận hành ngày càng có nguồn gốc từ các lỗi logic tinh vi, sơ suất cấu hình và hiểu lầm thiết kế do trợ lý AI tạo ra.
Sự thâm hụt chất lượng chuyển trực tiếp thành lãng phí tài chính. Nền tảng năng suất dành cho nhà phát triển Entelligence.AI đã tổng hợp dữ liệu từ 2.444 công ty và đưa ra một bảng phân tích đã gây chấn động trong giới kỹ sư:
| Tiền đi đâu | Chi phí cho mỗi 1 USD chi tiêu token AI |
|---|---|
| Sửa lỗi do AI tạo ra | 0,44 USD |
| Làm lại | 0,27 USD |
| Xung đột khi đánh giá | 0,11 USD |
| Giá trị thực tế đến tay người dùng | 0,18 USD |
Nói cách khác, 82 xu trong mỗi đô la chi cho token AI bị tiêu tốn vào sửa lỗi, làm lại và chi phí đánh giá. Chỉ có 18 xu mang lại giá trị cho người dùng. Chi phí này không phải là lý thuyết. Uber đã sử dụng hết toàn bộ ngân sách lập trình AI năm 2026 của mình trong vòng bốn tháng và ghi nhận không có lợi ích năng suất nào có thể đo lường được. Một giám đốc điều hành giấu tên của Uber đã tuyên bố thẳng thừng rằng mối liên hệ giữa chi tiêu cho AI và cải thiện sản phẩm "vẫn chưa tồn tại".
Một nghiên cứu bổ sung từ Stanford và MIT cho thấy các tác nhân AI (AI agent) sửa lỗi code có thể đốt hơn một triệu token cho mỗi tác vụ — gấp khoảng 1.000 lần mức tiêu thụ token của các tác vụ hỏi đáp code tiêu chuẩn. Các yếu tố kinh tế cho thấy rằng đối với nhiều tổ chức, chi phí gián tiếp của việc áp dụng AI hiện đang ăn mòn những lợi ích năng suất đã được hứa hẹn.
Có lẽ phát hiện nổi bật nhất về mặt tâm lý là các lập trình viên trải nghiệm dữ liệu này vẫn từ chối làm việc nếu không có AI. Nhiều hãng truyền thông đã đưa tin rằng những người tham gia nghiên cứu của METR đã phản đối việc quay lại lập trình không có trợ giúp ngay cả sau khi được cho xem số liệu về sự chậm lại của chính họ. Điều này được mô tả là "nghịch lý phụ thuộc AI" — một khi các nhà phát triển đã quen với sự trợ giúp của AI, họ mất tự tin vào khả năng không có trợ giúp của mình, ngay cả khi công cụ đó được chứng minh là làm họ chậm đi.
Như một nhà phát triển đã nói, AI "xử lý những phần nhàm chán — code khung sườn (boilerplate), cú pháp, những thứ có cảm giác như công việc nhưng không phải là nơi chứa đựng khó khăn thực sự." Công cụ này khiến việc lập trình có cảm giác nhanh hơn ngay cả khi đồng hồ bấm giờ nói ngược lại, bởi vì sự xung đột chuyển từ viết bản nháp ban đầu sang tiến hành các đánh giá tỉ mỉ.
Từ các thử nghiệm có kiểm soát của METR, phân tích yêu cầu kéo của CodeRabbit và dữ liệu doanh nghiệp của Entelligence.AI, một loạt các khuyến nghị nhất quán đã xuất hiện:
Các bằng chứng mới nổi không cho thấy các công cụ lập trình AI là vô dụng. Trong các bối cảnh cụ thể — làm quen với các cơ sở code không quen thuộc, tạo code khung sườn và các nhiệm vụ mà nhà phát triển dự đoán AI sẽ giúp ích đáng kể — thì tốc độ tăng lên có thể đo lường được thực sự xuất hiện. Nhưng xét trên tổng thể dân số rộng lớn hơn gồm các nhà phát triển có kinh nghiệm làm việc trên chính cơ sở code thuần thục của họ, hiệu quả thực tế từ giữa năm 2025 đến năm 2026 là tốc độ bàn giao chậm hơn, nhiều lỗi hơn và sự phụ thuộc bất chấp dữ liệu.
Comments
0 comments