| SWE-Bench Pro | 58.6% | 64.3% | Claude นำชัดในโจทย์วิศวกรรมซอฟต์แวร์ที่ยากกว่า |
| Terminal-Bench 2.0 | 82.7% | 69.4% reported | GPT-5.5 นำในงานแนว terminal/CLI แต่ตัวเลขของ Opus จากแหล่งสาธารณะไม่สม่ำเสมอ |
| MCP Atlas | 75.3% | 77.3–79.1% | Claude นำใน tool-calling และการประสานเครื่องมือหลายตัว |
| FrontierMath Tier 1–3 | 51.7% | 43.8% | GPT-5.5 นำใน reasoning ที่หนักคณิตศาสตร์ |
| FrontierMath Tier 4 | 35.4% | 22.9% | ใน tier ที่ยากขึ้น GPT-5.5 ก็ยังนำ |
| GPQA Diamond | 93.6% | 94.2% | ใกล้เสมอมาก; Claude สูงกว่านิดเดียว |
| Humanity’s Last Exam, no tools | 41.4% | 46.9% | งาน reasoning/ความรู้กว้างแบบข้อสอบ Claude นำ |
| Humanity’s Last Exam, with tools | 52.2% | 54.7% | เมื่อมี tools Claude ยังนำเล็กน้อย |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 นำในงานวิจัยผ่านเว็บหรือ browsing-heavy research |
มีสองแถวที่ควรอ่านด้วยความระมัดระวังเป็นพิเศษ. สำหรับ Terminal-Bench 2.0 บาง comparison แสดงคะแนน GPT-5.5 ที่ 82.7% แต่ไม่ได้ให้ตัวเลข public ของ Opus ขณะที่ LLM Stats และ summary อื่น ๆ รายงาน Opus 4.7 ที่ 69.4% . ส่วน MCP Atlas นั้น BenchLM แสดง snapshot สาธารณะว่า Claude Opus 4.7 ได้ 77.3% และ GPT-5.5 ได้ 75.3% ขณะที่รายงานอื่นอ้าง Claude ที่ 79.1% เทียบกับ GPT-5.5 ที่ 75.3%
.
สรุปเชิงทิศทางยังค่อนข้างนิ่ง: ถ้าเป็นงานที่ต้องทำคำสั่งใน terminal เป็นขั้น ๆ GPT-5.5 ดูแข็งกว่า; ถ้าเป็น agent ที่ต้องเรียกหลาย API หลาย service หรือหลาย tool ต่อเนื่องกัน Claude Opus 4.7 ดูน่าไว้ใจกว่า.
SWE-Bench ใช้วัดความสามารถของโมเดลในการแก้ issue จริงบน GitHub และ variant ที่ชื่อ SWE-Bench Pro ถูกอธิบายว่าเป็นชุดโจทย์ที่ยากกว่า . บน SWE-Bench Verified คะแนนของ GPT-5.5 อยู่ที่ 88.7% ส่วน Claude Opus 4.7 อยู่ที่ 87.6% จึงควรมองว่าใกล้เคียงกันมากในเชิงปฏิบัติ
.
สัญญาณที่มีประโยชน์กว่าสำหรับงาน coding หนัก ๆ อยู่ที่ SWE-Bench Pro. ใน benchmark นี้ Claude Opus 4.7 ได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% หรือ Claude นำ 5.7 จุด . ความต่างนี้สำคัญเพราะชุด Pro โหดกว่า: overview หนึ่งระบุว่า SWE-Bench Verified มี 500 tasks จาก 12 repositories ที่เป็น Python ทั้งหมด ขณะที่ Pro มี 1,865 tasks จาก 41 repositories ครอบคลุม Python, Go, TypeScript และ JavaScript; จำนวนไฟล์ที่ต้องแก้เฉลี่ยก็เพิ่มจากราว 1 ไฟล์เป็น 4.1 ไฟล์
.
ความหมายสำหรับทีมที่เอาไปใช้จริงคือ ถ้างานของคุณเป็น multi-file bug fixing, ซ่อม pull request, refactoring หรือสร้าง production coding agents ควรลอง Claude Opus 4.7 ก่อน. MindStudio ยังระบุว่า Opus 4.7 แข็งแรงกว่าในงานที่ต้องใช้ architectural reasoning กว้าง ๆ ข้าม codebase ขนาดใหญ่ .
ถ้า workflow ของคุณหนักไปทาง terminal หรือ command line เช่น shell automation, CLI-based agents หรือการทำงานบนเครื่องทีละขั้น GPT-5.5 มีเคสที่แข็งแรงกว่า. Terminal-Bench 2.0 รายงาน GPT-5.5 ที่ 82.7% และ Claude Opus 4.7 ที่ 69.4% . แต่เพราะบาง comparison ไม่แสดงเลข public ของ Opus จึงควรใช้ผลนี้เป็นสัญญาณทิศทาง ไม่ใช่คำตัดสินจาก leaderboard แบบเด็ดขาด
.
อีกด้านหนึ่ง ถ้า agent ของคุณต้องประสานเครื่องมือหลายตัว Claude Opus 4.7 ดูดีกว่า. MCP Atlas เป็น benchmark สำหรับ tool-calling ผ่าน Model Context Protocol integrations และ external tools . Snapshot สาธารณะของ BenchLM ให้ Claude Opus 4.7 ที่ 77.3% และ GPT-5.5 ที่ 75.3%
. ขณะที่รายงานอื่นให้ภาพเดียวกันในรูป 79.1% ต่อ 75.3%
.
พูดง่าย ๆ: ถ้า agent ของคุณต้องกดคำสั่งใน terminal ให้ลื่น GPT-5.5 น่าลองก่อน. แต่ถ้าต้องสลับเรียก API, service และ tool หลายตัวในลำดับยาว ๆ Claude Opus 4.7 เป็นจุดเริ่มต้นที่ดีกว่า.
คำว่า reasoning กว้างเกินไปที่จะตัดสินจาก benchmark เดียว. ในตารางของ OpenAI, GPT-5.5 ได้ 51.7% บน FrontierMath Tier 1–3 เทียบกับ Claude Opus 4.7 ที่ 43.8%; และบน FrontierMath Tier 4 GPT-5.5 ได้ 35.4% เทียบกับ Claude ที่ 22.9% . สำหรับงานที่หนักคณิตศาสตร์ GPT-5.5 จึงนำค่อนข้างชัด.
แต่ benchmark แบบความรู้และเหตุผลกว้าง ๆ ให้สัญญาณต่างออกไป. GPQA Diamond แทบเสมอกัน โดย GPT-5.5 ได้ 93.6% และ Claude Opus 4.7 ได้ 94.2% . ส่วน Humanity’s Last Exam รายงานว่า Claude นำทั้งแบบไม่ใช้ tools ที่ 46.9% ต่อ GPT-5.5 ที่ 41.4% และแบบใช้ tools ที่ 54.7% ต่อ 52.2%
.
สำหรับงาน research ผ่านเว็บ ภาพกลับมาเข้าทาง GPT-5.5. BrowseComp รายงาน GPT-5.5 ที่ 84.4% เทียบกับ Claude Opus 4.7 ที่ 79.3% . ดังนั้นถ้า use case ของคุณคือการ browse, ค้นข้อมูล, ตรวจแหล่งอ้างอิง และสรุป research จำนวนมาก GPT-5.5 เป็นตัวแรกที่ควรทดสอบ.
อย่าใช้ตัวเลข benchmark เป็นความจริงสุดท้ายของ production. Anthropic ระบุใน release notes ของ Claude Opus 4.7 ว่ามีการเปลี่ยน harness, ใช้ internal implementations และมี methodology updates บางส่วน จนคะแนนบางรายการไม่สามารถเทียบกับ public leaderboard ได้โดยตรง . ฝั่ง GPT-5.5 ก็มี summary สำหรับ builders ที่ flag ว่าคะแนน benchmark บางรายการเป็นตัวเลขที่ OpenAI รายงานเอง และยังไม่มี third-party replication ครบถ้วน
.
วิธีที่ปลอดภัยกว่าคือทำ internal eval ขนาดเล็ก: นำ ticket ล่าสุด, repositories จริง, tool chains, prompts และเกณฑ์ pass/fail ของทีมคุณมาให้ทั้งสองโมเดลลองทำ. Leaderboard ช่วยบอกทิศทาง แต่การเลือกโมเดลควรขึ้นกับลักษณะงานจริง, latency ที่รับได้, เครื่องมือที่ต้องเชื่อม และต้นทุนของความผิดพลาด.
ถ้าต้องการจุดเริ่มต้นสำหรับ general automation, terminal execution, math-heavy reasoning และ BrowseComp-style research GPT-5.5 ดูเป็นตัวเลือกแรกที่เหมาะกว่า . แต่ถ้า outcome หลักคือ hard coding, production coding agents หรือ multi-tool orchestration Claude Opus 4.7 เป็น candidate ที่แข็งแรงกว่า
.
ข้อสรุปที่ปลอดภัยที่สุดคือ GPT-5.5 เด่นในงาน execution กว้าง ๆ และคณิตศาสตร์ ส่วน Claude Opus 4.7 เด่นในงาน software engineering ที่ยากและ workflow แบบ tool-agent.
Comments
0 comments