METR kemudian meninjau kembali desain studi ini pada awal 2026, menyesuaikan dengan heterogenitas tugas. Analisis yang direvisi menemukan percepatan sederhana sebesar 6% di seluruh sampel, tetapi dengan variasi ekstrem: beberapa developer memperoleh percepatan hingga 25% pada tugas-tugas tertentu, sementara yang lain tetap lebih lambat secara keseluruhan. Kesimpulan inti tetap sama: manfaat AI sangat bergantung pada jenis tugas, dan kecepatan yang dilaporkan sendiri bukanlah metrik yang andal.
Jika angka waktu penyelesaian masih simpang siur, data kualitas kode jauh lebih jelas. Laporan penting CodeRabbit, "State of AI vs Human Code Generation," menganalisis 470 pull request GitHub dunia nyata — 320 ditulis bersama AI dan 150 murni manusia — di seluruh proyek open-source.
Judul utamanya sangat kontras: pull request yang dihasilkan AI mengandung rata-rata ~1,7x lebih banyak masalah daripada kode tulisan manusia (10,83 masalah per PR vs. 6,45). Defisit kualitas ini tidak terbatas pada gaya atau format. Masalahnya terkonsentrasi di area-area yang menyebabkan insiden nyata:
Analisis CodeRabbit juga mengidentifikasi adanya "ekor tinjauan yang lebih berat" untuk kode buatan AI, yang berarti para peninjau manusia menghabiskan waktu yang tidak proporsional lebih banyak untuk menemukan dan mendiagnosis masalah dalam perubahan yang dihasilkan AI. Seperti yang dikatakan oleh penulis laporan, manusia dan AI membuat jenis kesalahan yang sama — AI hanya melakukannya lebih sering dan dalam skala yang lebih besar.
Pola ini selaras dengan pengamatan CodeRabbit yang lebih luas bahwa tahun 2025 ditentukan oleh kecepatan AI, tetapi 2026 harus menjadi tahun kualitas AI. Postmortem dan insiden operasional semakin sering terlacak kembali ke kesalahan logika halus, kelalaian konfigurasi, dan kesalahpahaman desain yang diperkenalkan oleh asisten AI.
Defisit kualitas ini berdampak langsung pada pemborosan finansial. Platform produktivitas pengembang Entelligence.AI mengumpulkan data dari 2.444 perusahaan dan menghasilkan perincian yang telah menggema di kalangan insinyur:
| Ke Mana Dolar Itu Pergi | Biaya per $1 pengeluaran token AI |
|---|---|
| Memperbaiki bug yang disebabkan AI | $0.44 |
| Pengerjaan ulang (rework) | $0.27 |
| Friksi peninjauan (review friction) | $0.11 |
| Nilai aktual yang sampai ke pengguna | $0.18 |
Dengan kata lain, 82 sen dari setiap dolar yang dihabiskan untuk token AI digunakan untuk bug, pengerjaan ulang, dan biaya tambahan peninjauan. Hanya 18 sen yang memberikan nilai yang dihadapi pengguna. Biaya ini bukanlah teoretis. Uber menghabiskan seluruh anggaran coding AI 2026-nya dalam waktu empat bulan dan mencatat nol keuntungan produktivitas yang terukur. Seorang eksekutif Uber yang tidak disebutkan namanya menyatakan dengan blak-blakan bahwa hubungan antara pengeluaran AI dan peningkatan produk "belum ada."
Sebuah studi pelengkap dari Stanford dan MIT menemukan bahwa agen AI yang memperbaiki bug kode dapat membakar lebih dari satu juta token per tugas — sekitar 1.000 kali lipat konsumsi token dari tugas tanya jawab kode standar. Ekonomi ini menunjukkan bahwa bagi banyak organisasi, biaya hilir dari adopsi AI saat ini justru menggerogoti keuntungan produktivitas yang dijanjikan.
Mungkin temuan yang paling mencolok secara psikologis adalah bahwa para developer yang mengalami data ini tetap menolak untuk bekerja tanpa AI. Berbagai media melaporkan bahwa partisipan dalam studi METR menolak kembali ke pengkodean tanpa bantuan bahkan setelah diperlihatkan angka perlambatan mereka sendiri. Hal ini digambarkan sebagai "paradoks ketergantungan AI" — begitu developer terbiasa dengan bantuan AI, mereka kehilangan kepercayaan pada kemampuan mandiri mereka, bahkan ketika alat tersebut terbukti memperlambat mereka.
Seperti yang diungkapkan oleh seorang developer, AI "menangani bagian-bagian membosankan — boilerplate, sintaks, hal-hal yang terasa seperti pekerjaan tetapi bukan di situlah letak kesulitan sebenarnya." Alat ini membuat proses pengkodean terasa lebih cepat bahkan ketika stopwatch mengatakan sebaliknya, karena friksi bergeser dari menulis draf awal menjadi melakukan peninjauan yang sangat cermat.
Di seluruh uji coba terkontrol METR, analisis pull request CodeRabbit, dan data perusahaan dari Entelligence.AI, serangkaian rekomendasi yang konsisten telah muncul:
Bukti yang muncul tidak menunjukkan bahwa alat coding AI tidak berguna. Dalam konteks spesifik — mempelajari codebase yang tidak dikenal, menghasilkan boilerplate, dan tugas-tugas di mana developer memprediksi AI akan sangat membantu — percepatan yang terukur memang muncul. Namun, di antara populasi developer berpengalaman yang lebih luas yang bekerja pada codebase matang mereka sendiri, efek bersihnya dari pertengahan 2025 hingga 2026 adalah pengiriman yang lebih lambat, lebih banyak cacat, dan ketergantungan yang menolak data.
Comments
0 comments