ในที่นี้ “รีโป” หมายถึง repository หรือคลังโค้ดของโปรเจกต์ ส่วน “agent scaffolding” คือชุดเครื่องมือและขั้นตอนที่ห่อรอบโมเดล เช่น วิธีให้โมเดลอ่านไฟล์ แก้ไฟล์ รันเทสต์ หรือวนแก้ปัญหา ซึ่งอาจมีผลต่อคะแนนและอันดับของโมเดลได้
จุดแข็งของ Claude ในหลักฐานชุดนี้ไม่ได้มาจากการเขียนฟังก์ชันสั้น ๆ เพียงอย่างเดียว แต่มาจากงานที่ใกล้เคียงการพัฒนาซอฟต์แวร์จริงมากกว่า Emergent ชี้ว่า การวัด AI เขียนโค้ดไม่ควรดูแค่คุณภาพของโค้ดที่สร้างออกมา แต่ควรดูว่าระบบรับมือกับงานหลายขั้นตอนระดับ repository ภายใต้แรงกดดันได้ดีเพียงใด และระบุ Claude Code กับ Opus 4.6 สำหรับงานดีบักซับซ้อน การให้เหตุผลหลายไฟล์ และการเปลี่ยนโค้ดที่มีความเสี่ยงสูง
เหตุผลนี้สำคัญ เพราะงานของนักพัฒนาจำนวนมากไม่ได้จบที่ “เขียนโค้ดให้ได้คำตอบ” แต่ต้องอ่านสถาปัตยกรรมเดิม ไล่ผลกระทบข้ามไฟล์ แก้บั๊กเป็นรอบ ๆ และไม่ทำให้ส่วนอื่นพัง Emergent ระบุว่า Claude Code รักษาบริบทใน codebase ขนาดใหญ่ได้ และยังคงผ่านการดีบักแบบ iterative ได้โดยไม่เสื่อมคุณภาพลง
หลักฐานจากเบนช์มาร์กก็หนุน Claude ในเงื่อนไขที่ควบคุม tooling ให้เท่ากัน Awesome Agents รายงานว่า GPT-5.4 นำ SWE-bench Pro เมื่อใช้ custom scaffolding แต่เมื่อ Scale SEAL ประเมิน SWE-bench Pro ด้วย agent tooling ที่ทำให้เป็นมาตรฐานเดียวกัน Claude Opus 4.5/4.6 กลับขึ้นนำ สำหรับทีมที่กำลังเลือกผู้ช่วยเขียนโค้ดแบบ agentic ความต่างนี้สำคัญมาก เพราะคะแนนอาจสะท้อนทั้งตัวโมเดลและระบบที่ห่ออยู่รอบโมเดล
โมเดลสาย GPT-5.x Codex ยังควรอยู่ใน shortlist ของทีมพัฒนา โดยเฉพาะเมื่อทีมใช้เวิร์กโฟลว์ที่เข้ากับ OpenAI/Codex หรือใช้ custom agent scaffolding ของตัวเอง Awesome Agents รายงานว่า GPT-5.4 นำ SWE-bench Pro ที่ 57.7% ด้วย custom agent scaffolding และอธิบายว่า SWE-bench Pro เป็นเวอร์ชันที่ยากกว่า โดยดึงมาจาก 1,865 tasks ใน 41 repositories
แหล่ง SWE-bench leaderboard ยังแสดง GPT-5-2 Codex ที่ 72.80 ในรายการที่ปรากฏ ตัวเลขนี้เป็นสัญญาณที่แข็งแรงสำหรับทีมที่เน้นเบนช์มาร์ก แต่ยังไม่พอจะตัดสินคำถามทั้งหมด เพราะหลักฐานเดียวกันชี้ว่า scaffolding หรือกรอบเครื่องมือรอบโมเดลสามารถเปลี่ยนลำดับผู้ชนะได้
Gemini เป็นอีกตัวเลือกที่ควรทดสอบหากทีมให้ความสำคัญกับ SWE-bench เป็นพิเศษ แหล่ง SWE-bench leaderboard แสดง Gemini 3 Flash แบบ high reasoning ที่ 75.80 ซึ่งสูงกว่ารายการ GPT-5-2 Codex ที่ 72.80 ในข้อมูลที่ปรากฏ
นั่นทำให้ Gemini เป็นผู้ท้าชิงที่มองข้ามไม่ได้ในงานประเมินแบบ benchmark-led แต่ไม่ได้แปลว่า Gemini จะดีที่สุดในทุกรีโปจริง เพราะหลักฐานชุดเดียวกันชี้ว่าเมื่อเปลี่ยนสภาพแวดล้อมการประเมินหรือ scaffolding ผลลัพธ์และอันดับก็เปลี่ยนได้
สาเหตุหลักคือแต่ละแหล่งไม่ได้วัดสิ่งเดียวกันทั้งหมด ตัวเลขที่ดูเหมือนขัดกันจึงอาจถูกต้องพร้อมกันได้ในบริบทของตัวเอง
บทเรียนคือ ใช้ลีดเดอร์บอร์ดเพื่อคัดรายชื่อผู้สมัคร ไม่ใช่เพื่อแทนการทดสอบในงานของทีมตัวเอง
แนวทางที่ปลอดภัยที่สุดคือทำ controlled trial หรือการทดสอบแบบควบคุมเงื่อนไข ให้แต่ละโมเดลเจองานเดียวกัน รีโปเดียวกัน คำสั่งชุดเดียวกัน สิทธิ์การเข้าถึงแบบเดียวกัน เวลาจำกัดเท่ากัน และกระบวนการรีวิวเหมือนกัน
ชุดทดสอบที่ควรมี เช่น
ควรแยกคะแนนของ “ตัวโมเดล” ออกจาก “agent framework” หรือระบบรอบโมเดลให้ชัด เพราะหลักฐานแสดงว่า custom scaffolding กับ standardized scaffolding สามารถทำให้โมเดลที่ดูเหมือนนำหน้าเปลี่ยนตัวได้
เวลาตัดสิน อย่าดูแค่ว่าโมเดลตอบเร็วหรือเขียนโค้ดได้เยอะ ให้ดูผลลัพธ์เชิงวิศวกรรมด้วย เช่น เทสต์ผ่านหรือไม่ คำอธิบายถูกต้องไหม รักษาบริบทได้ดีแค่ไหน แก้เฉพาะจุดที่จำเป็นหรือไม่ และต้องใช้แรงรีวิวจากมนุษย์มากน้อยเพียงใด สำหรับ production code ตัวชี้วัดเหล่านี้มักมีประโยชน์กว่าคะแนนเดียวบนลีดเดอร์บอร์ด
สำหรับงานเขียนโค้ดที่ยากและใกล้เคียงโลกจริงที่สุด Claude Code พร้อมโมเดลตระกูล Opus เป็นค่าเริ่มต้นที่มีหลักฐานสนับสนุนดีที่สุด ในข้อมูลที่มีอยู่ แต่ถ้าการประเมินของทีมเน้นเบนช์มาร์ก GPT-5.x Codex และ Gemini ยังเป็นคู่แข่งจริงจัง โดย GPT-5.4 ถูกระบุว่าได้ 57.7% บน SWE-bench Pro ด้วย custom scaffolding และ SWE-bench แสดง Gemini 3 Flash ที่ 75.80
ดังนั้นคำตอบที่รอบคอบไม่ใช่ “โมเดลเดียวชนะทุกอย่าง” แต่คือ: เริ่มจาก Claude Code/Opus สำหรับงานรีโปที่ยาก ใส่ GPT-5.x Codex และ Gemini ไว้ในชุดทดสอบเมื่อทีมสนใจผลเบนช์มาร์ก แล้วตัดสินจากงานจริงในโค้ดเบสของคุณเอง
Comments
0 comments