ในช่วงต้นปี 2026 ทาง METR ได้กลับมาทบทวนแบบการทดสอบอีกครั้ง โดยปรับแก้ปัจจัยความหลากหลายของงาน การวิเคราะห์ที่ปรับแก้ใหม่พบว่ามีการทำงานเร็วขึ้นในระดับกลุ่มตัวอย่างที่ 6% แบบพอประมาณ แต่มีความแปรผันสูงมาก: นักพัฒนาบางคนทำงานเร็วขึ้นถึง 25% ในบางงาน ขณะที่บางคนก็ยังคงทำงานช้าลงโดยรวม ข้อสรุปหลักยังคงเดิม: ประโยชน์ของ AI ขึ้นอยู่กับลักษณะของงานเป็นอย่างมาก และความเร็วที่ประเมินด้วยตนเองไม่ใช่ตัวชี้วัดที่เชื่อถือได้
หากตัวเลขเวลาในการทำงานสำเร็จมีความแปรปรวนสูง ข้อมูลด้านคุณภาพโค้ดจะชัดเจนกว่า รายงานชิ้นสำคัญ "State of AI vs Human Code Generation" ของ CodeRabbit ได้ทำการวิเคราะห์ Pull Requests จริงบน GitHub จำนวน 470 รายการ โดยเป็นโค้ดที่เขียนร่วมกับ AI 320 รายการ และโค้ดที่มนุษย์เขียนเอง 150 รายการ จากโครงการโอเพนซอร์สต่างๆ
พาดหัวนั้นชัดเจนเด็ดขาด: Pull Requests ที่สร้างโดย AI มี จำนวนปัญหาเฉลี่ยมากกว่าประมาณ 1.7 เท่า เมื่อเทียบกับโค้ดที่มนุษย์เขียน (10.83 ปัญหาต่อ PR เทียบกับ 6.45) ความบกพร่องด้านคุณภาพไม่ได้จำกัดอยู่แค่เรื่องสไตล์หรือรูปแบบการเขียน แต่มันกระจุกตัวอยู่ในพื้นที่ที่ก่อให้เกิดเหตุการณ์จริง:
การวิเคราะห์ของ CodeRabbit ยังได้ระบุถึง "ช่วงท้ายของการตรวจสอบที่หนักหน่วงกว่า" (heavier review tail) สำหรับโค้ดที่เขียนโดย AI หมายความว่าผู้ตรวจสอบที่เป็นมนุษย์ใช้เวลาในการค้นหาและวินิจฉัยปัญหาในโค้ดที่ AI แก้ไขมาอย่างไม่ได้สัดส่วนมากกว่า ดังที่ผู้เขียนรายงานกล่าวไว้ มนุษย์และ AI ต่างก็ทำผิดพลาดในรูปแบบเดียวกัน แต่ AI เพียงแค่ทำให้มันเกิดขึ้นบ่อยกว่า และในปริมาณที่มากกว่า
รูปแบบนี้สอดคล้องกับข้อสังเกตในวงกว้างของ CodeRabbit ที่ว่าปี 2025 ถูกกำหนดโดยความเร็วของ AI แต่ปี 2026 จะต้องกลายเป็นปีแห่งคุณภาพของ AI การชันสูตรพลิกศพ (Postmortems) และเหตุการณ์ขัดข้องในการปฏิบัติงาน (Operational Incidents) นั้น สาเหตุสามารถสาวกลับไปยังข้อผิดพลาดทางตรรกะเล็กๆ น้อยๆ การกำกับดูแลการตั้งค่าที่ผิดพลาด และความเข้าใจผิดในการออกแบบที่ถูกนำเข้ามาโดยผู้ช่วย AI มากขึ้นเรื่อยๆ
การขาดดุลด้านคุณภาพแปลเป็นการสูญเสียทางการเงินโดยตรง Entelligence.AI แพลตฟอร์มวัดประสิทธิภาพการทำงานของนักพัฒนา ได้รวบรวมข้อมูลจาก บริษัท 2,444 แห่ง และสร้างรายละเอียดค่าใช้จ่ายที่ส่งแรงสะเทือนไปทั่วแวดวงวิศวกรรมซอฟต์แวร์:
| เงิน 1 ดอลลาร์หายไปไหน | ต้นทุนต่อ 1 ดอลลาร์ที่ใช้ไปกับโทเค็น AI |
|---|---|
| การแก้ไขบั๊กที่ AI นำเข้ามา | $0.44 |
| การทำงานซ้ำ (Rework) | $0.27 |
| ความยุ่งยากในการตรวจสอบ (Review friction) | $0.11 |
| มูลค่าที่แท้จริงที่ส่งถึงผู้ใช้ | $0.18 |
พูดอีกอย่างคือ 82 เซ็นต์จากทุกๆ ดอลลาร์ที่ใช้ไปกับโทเค็น AI สูญเสียไปกับบั๊ก การทำงานซ้ำ และค่าใช้จ่ายในการตรวจสอบ มีเพียง 18 เซ็นต์เท่านั้นที่ส่งมอบคุณค่าให้กับผู้ใช้ ต้นทุนนี้ไม่ใช่แค่ทฤษฎี Uber ได้ใช้งบประมาณด้าน AI สำหรับเขียนโค้ดในปี 2026 หมดไปภายในสี่เดือน และบันทึกผลว่า ไม่มีผลิตภาพ (Productivity) ที่วัดได้เพิ่มขึ้นเลย ผู้บริหาร Uber ที่ไม่เปิดเผยนามกล่าวอย่างตรงไปตรงมาว่า ความเชื่อมโยงระหว่างค่าใช้จ่ายด้าน AI กับการพัฒนาผลิตภัณฑ์ "ยังไม่มีอยู่จริง"
การศึกษาควบคู่จากมหาวิทยาลัย Stanford และ MIT พบว่า AI Agents ที่ใช้แก้บั๊กในโค้ดสามารถเผาผลาญโทเค็นได้มากกว่าล้านโทเค็นต่องาน ซึ่งมากกว่าการใช้โทเค็นสำหรับงานถาม-ตอบเกี่ยวกับโค้ดมาตรฐานถึงประมาณ 1,000 เท่า ในทางเศรษฐศาสตร์แล้ว สิ่งนี้ชี้ให้เห็นว่าสำหรับหลายๆ องค์กร ต้นทุนแอบแฝงที่ตามมาจากการนำ AI มาใช้กำลังกลืนกินผลประโยชน์ด้านประสิทธิภาพที่สัญญาไว้
บางทีข้อค้นพบที่สะเทือนใจในทางจิตวิทยามากที่สุดคือ การที่นักพัฒนาที่ได้เห็นข้อมูลเหล่านี้ด้วยตาตัวเองก็ยังคงปฏิเสธที่จะทำงานโดยไม่มี AI สำนักข่าวหลายแห่งรายงานว่า ผู้เข้าร่วมในการศึกษาของ METR ต่อต้านการกลับไปเขียนโค้ดแบบไม่มีตัวช่วย แม้จะถูกชี้ให้เห็นตัวเลขการทำงานที่ช้าลงของตัวเองแล้วก็ตาม สิ่งนี้ถูกเรียกว่า "ปฏิทรรศน์การพึ่งพา AI" (AI Dependency Paradox) — เมื่อนักพัฒนาเริ่มคุ้นเคยกับความช่วยเหลือจาก AI พวกเขาจะสูญเสียความมั่นใจในความสามารถของตัวเอง แม้ว่าเครื่องมือดังกล่าวจะพิสูจน์ได้ว่าทำให้พวกเขาช้าลงก็ตาม
ดังที่นักพัฒนาคนหนึ่งได้กล่าวไว้ AI "จัดการในส่วนที่น่าเบื่อ—โค้ดแม่แบบ (Boilerplate), ไวยากรณ์, สิ่งที่ให้ความรู้สึกเหมือนเป็นงานแต่ไม่ใช่จุดที่ความยากอยู่จริง" เครื่องมือนี้ทำให้การเขียนโค้ด รู้สึก เร็วขึ้น แม้ว่านาฬิกาจับเวลาจะบอกเป็นอย่างอื่น เพราะแรงเสียดทานในการทำงานเปลี่ยนจากการเขียนโค้ดฉบับร่างแรกๆ ไปเป็นการทำบทวิจารณ์อย่างละเอียดถี่ถ้วน
จากการทดลองแบบควบคุมของ METR, การวิเคราะห์ Pull Requests ของ CodeRabbit และข้อมูลระดับองค์กรของ Entelligence.AI ได้ข้อสรุปคำแนะนำที่สอดคล้องกันดังนี้:
หลักฐานที่ปรากฏไม่ได้ชี้ว่าเครื่องมือเขียนโค้ด AI นั้นไร้ประโยชน์โดยสิ้นเชิง ในบริบทเฉพาะ—เช่น การเริ่มต้นทำความเข้าใจกับฐานข้อมูลโค้ดที่ไม่คุ้นเคย หรือการสร้างโค้ดแม่แบบ และภารกิจที่นักพัฒนาคาดการณ์ว่า AI จะช่วยได้อย่างมาก—ความเร็วที่วัดได้ก็ปรากฏขึ้นจริง แต่ในวงกว้างของกลุ่มนักพัฒนาที่มีประสบการณ์ซึ่งทำงานบนฐานข้อมูลโค้ดของตัวเองที่พวกเขาคุ้นเคย ผลลัพธ์โดยรวมในช่วงกลางปี 2025 ถึง 2026 คือการส่งมอบงานที่ช้าลง มีข้อบกพร่องมากขึ้น และการพึ่งพาเครื่องมือที่ต้านทานข้อมูลความจริง
Comments
0 comments