如果說完Task時間嘅數據仲有爭議,咁程式碼質量嘅數據就清晰好多。CodeRabbit發表咗一份標誌性嘅《AI vs 人類程式碼生成狀況》報告,分析咗470個真實嘅GitHub Pull Request——當中320個係AI協作,150個純人手編寫——全部來自開源項目。
CodeRabbit嘅分析仲識別到AI編寫嘅Code有個「更長嘅審查尾巴」,意思係人類審查員要花不成比例嘅額外時間,先搵到同診斷到AI生成改動入面嘅問題。 報告作者講得好白:人類同AI會犯同一類錯誤——AI只係犯得更多、規模更大。
呢個模式同CodeRabbit嘅更宏觀觀察一致:2025年係AI速度嘅一年,但2026年必須成為AI質量嘅一年。越嚟越多事後剖析同營運事故,追查到根源都係AI助手引入嘅微妙邏輯錯誤、配置 oversight 同設計誤解。
| 每一蚊AI Token使費去咗邊 | 金額 |
|---|---|
| 修復AI自己製造嘅Bug | $0.44 |
| 重寫程式碼 | $0.27 |
| Review摩擦成本 | $0.11 |
| 真正送到用戶面前嘅價值 | $0.18 |
史丹福同MIT嘅一項補充研究發現,AI代理修復程式碼錯誤,每個Task可以燒超過一百萬個Token——大約係標準Code Q&A任務嘅1,000倍Token消耗。 經濟邏輯話畀我哋聽,對好多機構嚟講,引入AI嘅下游成本正正吞噬緊承諾咗嘅生產力紅利。
心理層面最令人深刻嘅發現可能係:親眼見過晒呢啲數據嘅開發者,依然拒絕返轉頭唔用AI。多個媒體報導,METR研究嘅參與者就算畀人睇到自己嘅減速數字,都抗拒恢復無AI輔助嘅編碼模式。 呢種現象被形容為「AI依賴悖論」——一旦開發者習慣咗AI幫手,就會對自己唔用AI嘅能力失去信心,就算件工具被證明拖慢緊佢哋都係咁。
有位開發者咁樣形容:AI「幫手搞掂晒啲沉悶部分——Boilerplate、語法,呢啲令人覺得係做緊嘢、但真正難度又唔喺度嘅嘢。」 件工具令寫Code嘅過程「感覺上」快咗,就算計時器話唔係,因為摩擦點由起草稿轉移咗去做詳盡審查。
綜合METR嘅對照實驗、CodeRabbit嘅Pull Request分析、同Entelligence.AI嘅企業數據,一套一致嘅建議浮現咗出嚟:
浮現嘅證據並唔係話AI編碼工具完全冇用。喺特定場景下——例如上手唔熟悉嘅Codebase、生成Boilerplate、同埋開發者預測AI會有好大幫助嘅任務——的確觀察到可量度嘅加速。 但放眼更廣泛嘅群體,即係喺自己成熟Codebase上工作嘅資深開發者,由2025年中至2026年嘅淨效果,係交貨慢咗、缺陷多咗、仲形成咗一種抗拒數據嘅依賴。
Comments
0 comments