答案已發布2 個月前Last edited 上個月31 來源

AI編碼工具嘅生產力矛盾：開發者自覺快咗24%，實際慢咗19%，仲死都唔肯放手

一個隨機對照實驗踢爆AI寫Code殘酷真相：資深開發者用AI後實際慢咗19%，但佢哋事前預測會快24%，事後仲覺得自己快咗20%——43個百分點嘅認知鴻溝。分析470個GitHub Pull Request發現：AI產生嘅Code比人手寫嘅多1.7倍缺陷，安全漏洞更加高2.74倍，唔係風格問題，而係Logic出錯、錯誤處理甩漏呢類會出事嘅bug。

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Split illustration of a developer's face half-human and half-circuit, with a speedometer showing conflicting perception and reality arrows for AI coding productivity — What does recent research reveal about the productivity, code quality, and industry dependency effects of AI coding tools, including METR'sThe gap between what developers feel and what the clock measures remains the defining finding of AI coding tool research in 2025–2026.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What does recent research reveal about the productivity, code quality, and industry dependency effects of AI coding tools, including METR's. Article summary: Here is a synthesis of the recent research on all four fronts.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Our early 2025 study found the use of AI causes tasks to take 19% longer, with a confidence interval between +2% and +39%. For the subset of the" source context "We are Changing our Developer Productivity Experiment Design - METR" Reference image 2: visual subject "Three questions conceptualizing increase in value produced due to access to AI tools around March 2026, with estimates for March 2025 and March" source context "Measuring the Self-Reported Impact of Early-20
openai.com

AI編碼工具嘅承諾曾經令業界神魂顛倒：打句Comment，成個Function就自動彈出嚟，出貨速度理應大幅提升。但由2025年中至2026年嘅一連串嚴謹研究，徹底顛覆咗呢個美好想像。數據顯示嘅唔係簡單直接嘅生產力倍增器，而係一個會令資深開發者越做越慢、產出程式碼Bug多到嚇人、仲會令人上癮戒唔甩嘅工具——啲數字擺在眼前，開發者都依然唔信邪。

METR生產力悖論：43個百分點嘅認知鴻溝

2025年7月，非牟利研究機構METR發表咗一份令科技界震動嘅報告。佢哋進行咗一個隨機對照實驗，搵嚟16位經驗豐富嘅開源開發者，分配246個真實世界嘅編碼任務，隨機俾佢哋部分任務用AI編碼工具（Cursor Pro同Claude 3.5/3.7 Sonnet），部分任務唔畀用。

實驗前，呢班開發者預測AI會令佢哋快24%完成任務。結果出爐，現實啱啱相反：用AI工具嘅開發者，實際用多咗19%時間先完成到任務（95%置信區間：+2%至+39%）。

慢咗唔係因為佢哋偷懶。開發者將多咗嘅時間用晒喺審查AI輸出、修正錯誤、引導模型行返正確方向、同埋呆等程式碼生成。最弔詭嘅係，認知同現實嘅落差喺實驗之後都冇修正到。親身經歷過呢19%嘅減速之後，開發者仍然估計自己快咗20%——主觀感覺同客觀時鐘足足差咗43個百分點。

METR喺2026年初重新檢視研究設計，調整咗任務差異性之後，修訂分析發現整體樣本有6%嘅略微加速，但個體差異極大：部分開發者喺某啲任務上快咗25%，但其他開發者依然係淨慢咗。核心結論冇變：AI嘅效益極度視乎任務類型，而自我報告嘅速度完全唔可靠。

CodeRabbit報告：AI程式碼質量缺陷（多1.7倍問題）

如果說完Task時間嘅數據仲有爭議，咁程式碼質量嘅數據就清晰好多。CodeRabbit發表咗一份標誌性嘅《AI vs 人類程式碼生成狀況》報告，分析咗470個真實嘅GitHub Pull Request——當中320個係AI協作，150個純人手編寫——全部來自開源項目。

結果令人震驚：AI生成嘅Pull Request平均包含~1.7倍更多問題（每個PR有10.83個問題，人手寫嘅得6.45個）。質量缺陷唔係局限喺風格或者格式，而係集中喺會引致真實事故嘅範疇：

邏輯同正確性錯誤：AI生成PR比人手多75%。
可讀性問題：激增超過3倍。
錯誤處理漏洞：差唔多係人手嘅2倍。
安全漏洞：比人手寫嘅Code高2.74倍。

CodeRabbit嘅分析仲識別到AI編寫嘅Code有個「更長嘅審查尾巴」，意思係人類審查員要花不成比例嘅額外時間，先搵到同診斷到AI生成改動入面嘅問題。報告作者講得好白：人類同AI會犯同一類錯誤——AI只係犯得更多、規模更大。

呢個模式同CodeRabbit嘅更宏觀觀察一致：2025年係AI速度嘅一年，但2026年必須成為AI質量嘅一年。越嚟越多事後剖析同營運事故，追查到根源都係AI助手引入嘅微妙邏輯錯誤、配置 oversight 同設計誤解。

Token浪費：每1蚊AI使費有8毫2子倒落海

質量缺陷直接轉化為財務浪費。開發者生產力平台Entelligence.AI整合咗2,444間公司嘅數據，得出一個震撼工程界嘅成本拆解：

每一蚊AI Token使費去咗邊	金額
修復AI自己製造嘅Bug	$0.44
重寫程式碼	$0.27
Review摩擦成本	$0.11
真正送到用戶面前嘅價值	$0.18

換句話講，每使1蚊美金買AI Token，有8毫2子係畀咗Bug修復、重寫同審查 overhead。得1毫8子係真正產生到用戶價值。

呢個成本唔係理論嚟。Uber喺四個月之內就燒晒佢2026年全年度嘅AI編碼預算，紀錄到嘅生產力提升係零。一位唔具名嘅Uber高層直言，AI支出同產品改善之間嘅關聯「到目前為止都唔存在」。

史丹福同MIT嘅一項補充研究發現，AI代理修復程式碼錯誤，每個Task可以燒超過一百萬個Token——大約係標準Code Q&A任務嘅1,000倍Token消耗。經濟邏輯話畀我哋聽，對好多機構嚟講，引入AI嘅下游成本正正吞噬緊承諾咗嘅生產力紅利。

AI依賴悖論：對住一個慢啲嘅工具上晒癮

心理層面最令人深刻嘅發現可能係：親眼見過晒呢啲數據嘅開發者，依然拒絕返轉頭唔用AI。多個媒體報導，METR研究嘅參與者就算畀人睇到自己嘅減速數字，都抗拒恢復無AI輔助嘅編碼模式。呢種現象被形容為「AI依賴悖論」——一旦開發者習慣咗AI幫手，就會對自己唔用AI嘅能力失去信心，就算件工具被證明拖慢緊佢哋都係咁。

有位開發者咁樣形容：AI「幫手搞掂晒啲沉悶部分——Boilerplate、語法，呢啲令人覺得係做緊嘢、但真正難度又唔喺度嘅嘢。」件工具令寫Code嘅過程「感覺上」快咗，就算計時器話唔係，因為摩擦點由起草稿轉移咗去做詳盡審查。

專家而家建議點做

綜合METR嘅對照實驗、CodeRabbit嘅Pull Request分析、同Entelligence.AI嘅企業數據，一套一致嘅建議浮現咗出嚟：

將AI輸出當作初級開發者寫嘅Code咁看待。 全部都要審查。預咗有邏輯錯誤、漏咗極端情況、同安全漏洞。絕對唔好將未經審查嘅AI Code部署上線。
接受AI加快起草但放大審查負擔嘅現實。 工具令你更快寫出更多Code，但去到「搞掂」嘅淨時間，好多時取決於額外審查時間係咪 outweigh 咗起草加速嘅部分。
量度實際週期時間，唔係感知速度。 自我報告嘅生產力提升被系統性誇大。METR發現聲稱AI令佢哋快2至3倍嘅開發者，同客觀時間記錄根本對唔上。
為隱藏成本做預算。 如果有44%嘅Token支出係用嚟修復AI生成嘅Bug，機構就要模擬AI採用嘅總成本，而唔係淨係睇API賬單。

浮現嘅證據並唔係話AI編碼工具完全冇用。喺特定場景下——例如上手唔熟悉嘅Codebase、生成Boilerplate、同埋開發者預測AI會有好大幫助嘅任務——的確觀察到可量度嘅加速。但放眼更廣泛嘅群體，即係喺自己成熟Codebase上工作嘅資深開發者，由2025年中至2026年嘅淨效果，係交貨慢咗、缺陷多咗、仲形成咗一種抗拒數據嘅依賴。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問