กรณีที่ Claude Opus 4.6 ดูแข็งที่สุดมาจาก SWE-Bench Verified เป็นหลัก แหล่งข้อมูลที่อ้างถึงให้คะแนนอยู่ในช่วงใกล้กัน คือ 79.2%, 79.4% หรือ 80.8% แล้วแต่รายงาน . สำหรับงานที่หน้าตาเหมือนการแก้ issue ในโค้ดเบสจริง ตัวเลขชุดนี้ทำให้ Opus 4.6 เป็นตัวเริ่มที่น่าลองที่สุด
แต่ GPT-5.3-Codex สรุปยากกว่า เพราะรายงานที่ให้มาใช้เส้น SWE-Bench ต่างกัน บทวิเคราะห์ GPT-5.4 ระบุ GPT-5.3-Codex ที่ 56.8% บน SWE-Bench Pro ขณะที่บทเปรียบเทียบ Opus กับ Codex บางแหล่งระบุ GPT-5.3-Codex ที่ 78.2% บน SWE-Bench Pro Public . ตัวเลขสองชุดนี้จึงไม่ควรถูกนำมาเฉลี่ย หรือจัดอันดับรวมเหมือนมาจากสนามเดียวกัน
สำหรับ GPT-5.4 จุดที่เทียบกับ GPT-5.3-Codex ได้ตรงที่สุดในแหล่งเดียวกันคือ 57.7% บน SWE-Bench Pro เทียบกับ 56.8% ของ GPT-5.3-Codex ซึ่งเป็นส่วนต่างที่เล็กมาก . อีกบทสรุปหนึ่งก็พูดถึงตัวเลข 57.7% ของ GPT-5.4 บน SWE-Bench Pro Public พร้อมเตือนว่าการประกาศผู้ชนะรวมระหว่าง Claude กับ GPT จากตัวเลขคนละชุดนั้นไม่ใช่การเทียบแบบ apples-to-apples
.
Terminal-Bench 2.0 เป็นสนามที่อ่านผิดได้ง่าย เพราะกระดานสาธารณะไม่ได้ให้คะแนนโมเดลล้วน ๆ แต่จัดอันดับเป็นคู่เอเจนต์/โมเดล . พูดง่าย ๆ คือ โมเดลเดียวกันอาจทำคะแนนต่างกันเมื่ออยู่ในระบบเอเจนต์หรือ harness คนละแบบ
บนกระดานสาธารณะ GPT-5.3-Codex ปรากฏที่ 78.4% เมื่อจับคู่กับ SageAgent, 77.3% กับ Droid และ 75.1% กับ Simple Codex . ฝั่ง Claude Opus 4.6 ปรากฏที่ 79.8% กับ ForgeCode, 75.3% กับ Capy และ 62.9% กับ Terminus 2
.
ช่องว่างระดับนี้มากพอจะเปลี่ยนหน้าตาผู้ชนะได้ บทวิเคราะห์ GPT-5.4 รายงานว่า GPT-5.3-Codex นำ Claude Opus 4.6 บน Terminal-Bench 2.0 ที่ 77.3% ต่อ 65.4% . แต่กระดานสาธารณะมีรายการ ForgeCode/Claude Opus 4.6 ที่ 79.8% สูงกว่า SageAgent/GPT-5.3-Codex ที่ 78.4%
. ดังนั้นถ้าจะตัดสินงานเทอร์มินัลจริง ควรล็อกเอเจนต์และสภาพแวดล้อมให้เหมือนกันก่อน แล้วค่อยสรุปว่าโมเดลไหนดีกว่า
ถ้าตัวแทนคุณภาพการเขียนโค้ดของคุณคือ SWE-Bench Verified, Claude Opus 4.6 มีหลักฐานหนุนแน่นที่สุดในชุดข้อมูลนี้ คะแนนที่ถูกรายงานเกาะกลุ่มแถว 79%–81% ได้แก่ 79.2% ในบทวิเคราะห์ GPT-5.4, 79.4% ในบทเปรียบเทียบ Opus-vs-Codex และ 80.8% ในบทสรุปเบนช์มาร์กอื่น ๆ .
อย่างไรก็ตาม นี่ไม่ได้แปลว่า Opus 4.6 ชนะทุกงานโค้ด ภาพของ Terminal-Bench ยังปนกันอยู่ เพราะบางรายงานให้ 65.4% ขณะที่กระดานสาธารณะให้ได้ตั้งแต่ 62.9% ถึง 79.8% ตามเอเจนต์ที่จับคู่ . สรุปคือ Opus 4.6 น่าเริ่มก่อนสำหรับงานซ่อมรีโพซิทอรีแบบ Verified แต่ยังไม่ควรถูกเรียกว่าแชมป์โค้ดสากล
GPT-5.3-Codex มีกรณีที่ชัดที่สุดเมื่อภาระงานคล้าย Terminal-Bench คือให้เอเจนต์ใช้ shell, แก้ไฟล์ และทำงานหลายขั้นตอนในสภาพแวดล้อมเทอร์มินัล รายงานเปรียบเทียบบางแหล่งให้ GPT-5.3-Codex ที่ 77.3% บน Terminal-Bench 2.0 และกระดานสาธารณะก็แสดง GPT-5.3-Codex ที่ 78.4% กับ SageAgent, 77.3% กับ Droid และ 75.1% กับ Simple Codex .
ฝั่ง SWE-Bench ต้องระวังกว่าเดิม บางแหล่งรายงาน GPT-5.3-Codex ที่ 78.2% บน SWE-Bench Pro Public ขณะที่อีกแหล่งรายงาน 56.8% บน SWE-Bench Pro . เพราะแหล่งข้อมูลเองเตือนว่าแต่ละเวอร์ชันเทียบตรงกันไม่ได้ การประเมิน GPT-5.3-Codex จึงควรใช้เวอร์ชันเบนช์มาร์กและชุดทดสอบเดียวกับงานที่คุณจะใช้จริง
.
จากชุดตัวเลขที่ให้มา GPT-5.4 ยังไม่ใช่การก้าวกระโดดด้านโค้ดแบบชนะขาด การเปรียบเทียบในแหล่งเดียวกันให้ GPT-5.4 นำ GPT-5.3-Codex บน SWE-Bench Pro เพียง 57.7% ต่อ 56.8% แต่ตามหลังใน Terminal-Bench 2.0 ที่ 75.1% ต่อ 77.3% .
จุดที่น่าสนใจกว่าคือการใช้เครื่องมือ บทวิเคราะห์ GPT-5.4 ระบุว่า tool search ลดการใช้โทเคน MCP ได้ 47% เพราะโหลดนิยามเครื่องมือเมื่อจำเป็น แทนที่จะยัดนิยามทั้งหมดเข้า context ตั้งแต่ต้น . สำหรับระบบ coding agent ที่เรียกใช้เครื่องมือจำนวนมาก นี่อาจเป็นข้อได้เปรียบเชิงระบบ แต่ควรวัดแยกจากคะแนนแก้บั๊กหรือคะแนน Terminal-Bench
ถ้างานหลักคือแก้บั๊กในรีโพซิทอรีแบบ SWE-Bench Verified ให้เริ่มจาก Claude Opus 4.6 ถ้างานเป็นเอเจนต์ที่ต้องทำงานผ่านเทอร์มินัล ให้ใส่ GPT-5.3-Codex ไว้ในรอบทดสอบเสมอ และถ้าต้องการโมเดล OpenAI รุ่นล่าสุดหรือระบบของคุณใช้เครื่องมือผ่าน MCP หนักมาก GPT-5.4 ก็ควรถูกทดสอบแยกต่างหาก .
Comments
0 comments