ถ้าถามว่าโมเดลไหนเขียนโค้ดดีที่สุด คำตอบที่ปลอดภัยที่สุดคือ ยังไม่มีตัวเดียวที่ชนะทุกสนาม จากรายงานที่อ้างถึง Claude Opus 4.6 ดูแข็งที่สุดในงานแก้บั๊กแบบ SWE-Bench Verified, GPT-5.3-Codex เป็นตัวเลือก OpenAI ที่เด่นในสาย Terminal-Bench 2.0, ส่วน GPT-5.4 ดูเหมือนเป็นการขยับขึ้นด้านโค้ดแบบค่อยเป็นค่อยไปมากกว่าการชนะขาด [1][
3][
5][
7][
9].
ประเด็นสำคัญคือ ตัวเลขเหล่านี้ไม่ได้วัดสิ่งเดียวกันทั้งหมด SWE-Bench มีหลายเวอร์ชัน และผล Terminal-Bench สาธารณะขึ้นอยู่กับทั้งโมเดลและเอเจนต์หรือ harness ที่ห่อโมเดลไว้ให้ลงมือทำงาน [1][
6][
7][
10].
คำตอบเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อโมเดล
| งานที่ต้องทำ | โมเดลที่ควรลองก่อน | หลักฐานหลัก | จุดที่ต้องระวัง |
|---|---|---|---|
| แก้บั๊กในรีโพซิทอรีแบบ SWE-Bench Verified | Claude Opus 4.6 | รายงานหลายแหล่งให้ Opus 4.6 อยู่ราว 79.2%–80.8% บน SWE-Bench Verified [ | อย่านำไปเทียบตรงกับ SWE-Bench Pro Public เหมือนเป็นข้อสอบเดียวกัน [ |
| งาน coding agent ผ่านเทอร์มินัล | GPT-5.3-Codex แต่ต้องเช็ก harness | บทวิเคราะห์ GPT-5.4 รายงานว่า GPT-5.3-Codex ได้ 77.3% บน Terminal-Bench 2.0 สูงกว่า GPT-5.4 ที่ 75.1% และ Claude Opus 4.6 ที่ 65.4% [ | กระดานสาธารณะจัดอันดับเป็นคู่เอเจนต์/โมเดล และ Claude Opus 4.6 กับ ForgeCode ขึ้นถึง 79.8% [ |
| เลือกเฉพาะในตระกูล OpenAI | GPT-5.4 แต่คาดหวังผลเพิ่มแบบค่อยเป็นค่อยไป | แหล่งเดียวกันรายงาน GPT-5.4 ที่ 57.7% บน SWE-Bench Pro เทียบกับ GPT-5.3-Codex ที่ 56.8% [ | ใน Terminal-Bench 2.0 GPT-5.4 ต่ำกว่า GPT-5.3-Codex คือ 75.1% ต่อ 77.3% [ |
| ระบบที่เรียกใช้เครื่องมือจำนวนมากผ่าน MCP | GPT-5.4 ควรได้รอบทดสอบของตัวเอง | บทวิเคราะห์ GPT-5.4 ระบุว่า tool search ลดการใช้โทเคน MCP ได้ 47% ด้วยการโหลดนิยามเครื่องมือเมื่อต้องใช้ [ | การประหยัดโทเคนไม่ใช่สิ่งเดียวกับการชนะเบนช์มาร์กแก้บั๊ก [ |
กับดักของเบนช์มาร์ก: เลขสูงกว่าไม่ได้แปลว่าดีกว่าเสมอ
SWE-Bench Verified กับ SWE-Bench Pro Public เป็นคนละสัญญาณ
กรณีที่ Claude Opus 4.6 ดูแข็งที่สุดมาจาก SWE-Bench Verified เป็นหลัก แหล่งข้อมูลที่อ้างถึงให้คะแนนอยู่ในช่วงใกล้กัน คือ 79.2%, 79.4% หรือ 80.8% แล้วแต่รายงาน [3][
5][
6][
7][
9]. สำหรับงานที่หน้าตาเหมือนการแก้ issue ในโค้ดเบสจริง ตัวเลขชุดนี้ทำให้ Opus 4.6 เป็นตัวเริ่มที่น่าลองที่สุด
แต่ GPT-5.3-Codex สรุปยากกว่า เพราะรายงานที่ให้มาใช้เส้น SWE-Bench ต่างกัน บทวิเคราะห์ GPT-5.4 ระบุ GPT-5.3-Codex ที่ 56.8% บน SWE-Bench Pro ขณะที่บทเปรียบเทียบ Opus กับ Codex บางแหล่งระบุ GPT-5.3-Codex ที่ 78.2% บน SWE-Bench Pro Public [3][
6][
7]. ตัวเลขสองชุดนี้จึงไม่ควรถูกนำมาเฉลี่ย หรือจัดอันดับรวมเหมือนมาจากสนามเดียวกัน
สำหรับ GPT-5.4 จุดที่เทียบกับ GPT-5.3-Codex ได้ตรงที่สุดในแหล่งเดียวกันคือ 57.7% บน SWE-Bench Pro เทียบกับ 56.8% ของ GPT-5.3-Codex ซึ่งเป็นส่วนต่างที่เล็กมาก [3]. อีกบทสรุปหนึ่งก็พูดถึงตัวเลข 57.7% ของ GPT-5.4 บน SWE-Bench Pro Public พร้อมเตือนว่าการประกาศผู้ชนะรวมระหว่าง Claude กับ GPT จากตัวเลขคนละชุดนั้นไม่ใช่การเทียบแบบ apples-to-apples [
10].
Terminal-Bench ต้องดูทั้งโมเดลและเอเจนต์
Terminal-Bench 2.0 เป็นสนามที่อ่านผิดได้ง่าย เพราะกระดานสาธารณะไม่ได้ให้คะแนนโมเดลล้วน ๆ แต่จัดอันดับเป็นคู่เอเจนต์/โมเดล [1]. พูดง่าย ๆ คือ โมเดลเดียวกันอาจทำคะแนนต่างกันเมื่ออยู่ในระบบเอเจนต์หรือ harness คนละแบบ
บนกระดานสาธารณะ GPT-5.3-Codex ปรากฏที่ 78.4% เมื่อจับคู่กับ SageAgent, 77.3% กับ Droid และ 75.1% กับ Simple Codex [1]. ฝั่ง Claude Opus 4.6 ปรากฏที่ 79.8% กับ ForgeCode, 75.3% กับ Capy และ 62.9% กับ Terminus 2 [
1].
ช่องว่างระดับนี้มากพอจะเปลี่ยนหน้าตาผู้ชนะได้ บทวิเคราะห์ GPT-5.4 รายงานว่า GPT-5.3-Codex นำ Claude Opus 4.6 บน Terminal-Bench 2.0 ที่ 77.3% ต่อ 65.4% [3]. แต่กระดานสาธารณะมีรายการ ForgeCode/Claude Opus 4.6 ที่ 79.8% สูงกว่า SageAgent/GPT-5.3-Codex ที่ 78.4% [
1]. ดังนั้นถ้าจะตัดสินงานเทอร์มินัลจริง ควรล็อกเอเจนต์และสภาพแวดล้อมให้เหมือนกันก่อน แล้วค่อยสรุปว่าโมเดลไหนดีกว่า
อ่านเป็นรายโมเดล
Claude Opus 4.6: ตัวเริ่มที่แข็งแรงสำหรับงานแก้บั๊กแบบ Verified
ถ้าตัวแทนคุณภาพการเขียนโค้ดของคุณคือ SWE-Bench Verified, Claude Opus 4.6 มีหลักฐานหนุนแน่นที่สุดในชุดข้อมูลนี้ คะแนนที่ถูกรายงานเกาะกลุ่มแถว 79%–81% ได้แก่ 79.2% ในบทวิเคราะห์ GPT-5.4, 79.4% ในบทเปรียบเทียบ Opus-vs-Codex และ 80.8% ในบทสรุปเบนช์มาร์กอื่น ๆ [3][
5][
6][
7][
9].
อย่างไรก็ตาม นี่ไม่ได้แปลว่า Opus 4.6 ชนะทุกงานโค้ด ภาพของ Terminal-Bench ยังปนกันอยู่ เพราะบางรายงานให้ 65.4% ขณะที่กระดานสาธารณะให้ได้ตั้งแต่ 62.9% ถึง 79.8% ตามเอเจนต์ที่จับคู่ [1][
3][
7][
9]. สรุปคือ Opus 4.6 น่าเริ่มก่อนสำหรับงานซ่อมรีโพซิทอรีแบบ Verified แต่ยังไม่ควรถูกเรียกว่าแชมป์โค้ดสากล
GPT-5.3-Codex: ตัวเด่นของ OpenAI ในงานเทอร์มินัลเอเจนต์
GPT-5.3-Codex มีกรณีที่ชัดที่สุดเมื่อภาระงานคล้าย Terminal-Bench คือให้เอเจนต์ใช้ shell, แก้ไฟล์ และทำงานหลายขั้นตอนในสภาพแวดล้อมเทอร์มินัล รายงานเปรียบเทียบบางแหล่งให้ GPT-5.3-Codex ที่ 77.3% บน Terminal-Bench 2.0 และกระดานสาธารณะก็แสดง GPT-5.3-Codex ที่ 78.4% กับ SageAgent, 77.3% กับ Droid และ 75.1% กับ Simple Codex [1][
3][
7][
9].
ฝั่ง SWE-Bench ต้องระวังกว่าเดิม บางแหล่งรายงาน GPT-5.3-Codex ที่ 78.2% บน SWE-Bench Pro Public ขณะที่อีกแหล่งรายงาน 56.8% บน SWE-Bench Pro [3][
6][
7][
9]. เพราะแหล่งข้อมูลเองเตือนว่าแต่ละเวอร์ชันเทียบตรงกันไม่ได้ การประเมิน GPT-5.3-Codex จึงควรใช้เวอร์ชันเบนช์มาร์กและชุดทดสอบเดียวกับงานที่คุณจะใช้จริง [
6][
7][
10].
GPT-5.4: ขยับด้านโค้ดไม่มาก แต่มีมุมเด่นเรื่องเครื่องมือ
จากชุดตัวเลขที่ให้มา GPT-5.4 ยังไม่ใช่การก้าวกระโดดด้านโค้ดแบบชนะขาด การเปรียบเทียบในแหล่งเดียวกันให้ GPT-5.4 นำ GPT-5.3-Codex บน SWE-Bench Pro เพียง 57.7% ต่อ 56.8% แต่ตามหลังใน Terminal-Bench 2.0 ที่ 75.1% ต่อ 77.3% [3].
จุดที่น่าสนใจกว่าคือการใช้เครื่องมือ บทวิเคราะห์ GPT-5.4 ระบุว่า tool search ลดการใช้โทเคน MCP ได้ 47% เพราะโหลดนิยามเครื่องมือเมื่อจำเป็น แทนที่จะยัดนิยามทั้งหมดเข้า context ตั้งแต่ต้น [3]. สำหรับระบบ coding agent ที่เรียกใช้เครื่องมือจำนวนมาก นี่อาจเป็นข้อได้เปรียบเชิงระบบ แต่ควรวัดแยกจากคะแนนแก้บั๊กหรือคะแนน Terminal-Bench
วิธีเทียบให้ไม่หลอกตัวเอง
- เลือกเวอร์ชันเบนช์มาร์กก่อนเลือกผู้ชนะ SWE-Bench Verified, SWE-Bench Pro และ SWE-Bench Pro Public ไม่ควรถูกยุบเป็นคะแนนเดียว [
6][
7][
10].
- งานเทอร์มินัลต้องล็อก harness ให้คงที่ กระดาน Terminal-Bench 2.0 แสดงชัดว่าโมเดลเดียวกันทำคะแนนต่างกันได้มากเมื่อจับคู่กับเอเจนต์คนละตัว [
1].
- แยกความแม่นยำด้านโค้ดออกจากประสิทธิภาพการใช้เครื่องมือ ตัวเลขลดโทเคน MCP 47% ของ GPT-5.4 เป็นหลักฐานที่มีประโยชน์สำหรับระบบเครื่องมือหนัก แต่ไม่ใช่ข้ออ้างว่าโมเดลชนะ SWE-Bench หรือ Terminal-Bench [
3].
- ใช้การจัดอันดับข้ามแหล่งเป็นทิศทาง ไม่ใช่คำตัดสินสุดท้าย เพราะชุดข้อมูลนี้ชี้ผู้ชนะต่างกันตามสนามทดสอบและสภาพแวดล้อม [
1][
3][
6][
7][
10].
สรุป
ถ้างานหลักคือแก้บั๊กในรีโพซิทอรีแบบ SWE-Bench Verified ให้เริ่มจาก Claude Opus 4.6 ถ้างานเป็นเอเจนต์ที่ต้องทำงานผ่านเทอร์มินัล ให้ใส่ GPT-5.3-Codex ไว้ในรอบทดสอบเสมอ และถ้าต้องการโมเดล OpenAI รุ่นล่าสุดหรือระบบของคุณใช้เครื่องมือผ่าน MCP หนักมาก GPT-5.4 ก็ควรถูกทดสอบแยกต่างหาก [1][
3][
5][
7][
9].
คำตอบสุดท้ายจึงไม่ใช่ โมเดลไหนเก่งโค้ดที่สุดแบบถาวร แต่คือ ผู้ชนะเปลี่ยนตามเวอร์ชันเบนช์มาร์ก เอเจนต์ที่ใช้ และงานจริงที่คุณจะรัน [1][
6][
7][
10].




