Claude Opus 4.7 ไม่ใช่โมเดลที่ควรอธิบายด้วยตัวเลข benchmark เพียงค่าเดียว จุดขายหลักของมันอยู่ที่การให้เหตุผลซับซ้อน งานเขียนโค้ดแบบเอเจนต์ และเวิร์กโฟลว์ที่ยาวหรือมีหลายขั้นตอน Anthropic ระบุในเอกสารว่า Opus 4.7 เป็นโมเดลแบบ generally available ที่มีความสามารถสูงสุดของตนสำหรับ complex reasoning และ agentic coding [1] ขณะที่ AWS นำเสนอว่าเป็นรุ่นอัปเกรดจาก Opus 4.6 สำหรับงาน production เช่น agentic coding, knowledge work, visual understanding และ long-running tasks [
7]
ตัวเลขที่ถูกหยิบมาพูดถึงมากที่สุดในหมู่นักพัฒนาคือ 87.6% ใน SWE-bench Verified ซึ่ง AWS รายงานจากข้อมูลของ Anthropic [7] คะแนนนี้สำคัญ แต่ควรอ่านคู่กับ benchmark อื่น ๆ และข้อสังเกตของ AWS ว่าโมเดลอาจต้องปรับวิธีเขียน prompt รวมถึงปรับ harness หรือชุดทดสอบ/สภาพแวดล้อมที่ใช้รันงาน เพื่อดึงประสิทธิภาพออกมาได้เต็มที่ [
7]
ตัวเลขสำคัญที่รายงานไว้
| ด้านที่ประเมิน | Benchmark | ผลที่รายงาน | ควรใช้ดูอะไร |
|---|---|---|---|
| Coding และเอเจนต์ | SWE-bench Verified | 87.6% | ตัวเลขหลักที่ถูกอ้างถึงมากที่สุดสำหรับการประเมินความสามารถแก้งานซอฟต์แวร์ของ Claude Opus 4.7 [ |
| Coding และเอเจนต์ | SWE-bench Pro | 64.3% | ใช้อ่านเสริมเมื่องานซอฟต์แวร์ยากขึ้นหรือมีลักษณะต่างจาก SWE-bench Verified [ |
| เอเจนต์ในสภาพแวดล้อม terminal | Terminal-Bench 2.0 | 69.4% | เหมาะกับกรณีที่โมเดลต้องทำงานผ่านเครื่องมือหรือสภาพแวดล้อมคล้าย terminal [ |
| เอเจนต์ด้านการเงิน | Finance Agent v1.1 | 64.4% | เกี่ยวข้องกับงานวิเคราะห์หรืออัตโนมัติด้านการเงินมากกว่า benchmark coding ทั่วไป [ |
| Coding ภายใน | benchmark ภายใน 93 งาน | อัตราแก้สำเร็จสูงกว่า Opus 4.6 อยู่ 13% | เป็นการปรับดีขึ้นในชุดประเมินเฉพาะ ไม่ใช่คำรับประกันว่าทุกโปรเจกต์จะดีขึ้นเท่ากัน [ |
| Research agent ภายใน | คะแนนรวม | 0.715 | Anthropic ระบุว่าเป็นผลลัพธ์ที่แข็งแรงสำหรับงานหลายขั้นตอนใน benchmark research-agent ภายใน [ |
| Research agent ภายใน | General Finance | 0.813 เทียบกับ 0.767 ของ Opus 4.6 | ชี้ว่าดีขึ้นจาก Opus 4.6 ในโมดูลการเงินภายในของ Anthropic [ |
87.6% ใน SWE-bench Verified หมายความว่าอะไร
ถ้าทีมกำลังเทียบโมเดลเพื่อใช้เป็น coding agent คะแนน SWE-bench Verified คือพาดหัวที่ชัดที่สุดจากข้อมูลสาธารณะที่มีอยู่: AWS รายงานว่า Claude Opus 4.7 ได้ 87.6% [7] ในเชิงการใช้งาน นี่ทำให้ภาพของ Opus 4.7 ชัดขึ้นว่าเน้นงานวิศวกรรมซอฟต์แวร์และการแก้ปัญหาโค้ด สอดคล้องกับคำอธิบายของ Anthropic ที่วางโมเดลนี้ไว้ในกลุ่มเด่นด้าน reasoning ซับซ้อนและ agentic coding [
1]
แต่คะแนนนี้ไม่ควรถูกตีความว่าเป็นประสิทธิภาพโดยรวมของโมเดลในทุกงาน SWE-bench Verified วัดความสามารถบางประเภท ไม่ได้แทน benchmark สำหรับ terminal, งานการเงิน, วิชัน, งานระยะยาว หรือ research ทั้งหมด ดังนั้นถ้าจะตัดสินใจเชิงเทคนิค ควรดูอย่างน้อย SWE-bench Pro และ Terminal-Bench 2.0 ควบคู่ไปกับคะแนนหลัก [6][
7]
ทำไมตัวเลขจากแต่ละแหล่งไม่เหมือนกัน
ไม่ใช่ทุกแหล่งที่รายงานตัวเลขเดียวกัน แหล่งข้อมูลรองแห่งหนึ่งรายงานว่า Claude Opus 4.7 ได้ 82.4% ใน SWE-bench Verified ขณะที่ AWS รายงาน 87.6% [2][
7] ความต่างนี้สำคัญ เพราะการนำตัวเลขไปใช้โดยไม่บอกที่มาอาจทำให้เทียบผิดบริบท
วิธีอ่านที่รอบคอบคือระบุให้ครบว่าเป็น benchmark ใด คะแนนเท่าไร และมาจากแหล่งไหน นอกจากนี้ AWS ยังเตือนว่า Opus 4.7 อาจต้องปรับ prompt และ harness เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ซึ่งย้ำว่า configuration ของการทดสอบมีผลต่อคะแนนที่เห็นได้ [7]
ควรดู benchmark ไหนตามงานที่ใช้จริง
ถ้าเป้าหมายหลักคือ การเขียนโค้ดหรือแก้ issue ในซอฟต์แวร์ ให้เริ่มจาก SWE-bench Verified แต่ไม่ควรหยุดแค่นั้น SWE-bench Pro และ Terminal-Bench 2.0 ช่วยให้เห็นภาพงานที่ซับซ้อนขึ้น หรือกรณีที่โมเดลต้องโต้ตอบกับเครื่องมือและสภาพแวดล้อมแบบ terminal [6][
7]
ถ้าเป้าหมายคือ งานการเงินหรือ research ข้อมูล benchmark ภายในของ Anthropic จะใกล้เคียงรูปแบบงานนั้นมากกว่า โดยใน benchmark research-agent ภายใน Opus 4.7 ได้คะแนนรวม 0.715 และได้ 0.813 ในโมดูล General Finance เทียบกับ 0.767 ของ Opus 4.6 ในโมดูลเดียวกัน [8] อย่างไรก็ตาม ควรอ่านในฐานะผลประเมินภายใน ไม่ใช่การยืนยันจากบุคคลที่สามโดยอิสระ
ถ้าสนใจ เวิร์กโฟลว์องค์กรที่ยาวและมีหลายขั้นตอน ข้อมูลสาธารณะชี้ไปที่การปรับปรุงในงานระยะยาว การทำตามคำสั่ง และการทำงานท่ามกลางความกำกวม ตามที่ AWS อ้างข้อมูลจาก Anthropic [7] ในกรณีนี้ benchmark เป็นเพียงจุดเริ่มต้น การทดสอบที่มีน้ำหนักจริงควรใช้เครื่องมือ prompt และ harness ที่ใกล้กับงานของทีมคุณเอง
สรุป
benchmark ที่แข็งแรงและอ้างอิงง่ายที่สุดของ Claude Opus 4.7 คือ 87.6% ใน SWE-bench Verified ซึ่งเกี่ยวข้องโดยตรงกับงาน coding แบบเอเจนต์ [7] แต่ภาพรวมต้องละเอียดกว่านั้น เพราะยังมีคะแนน 64.3% ใน SWE-bench Pro, 69.4% ใน Terminal-Bench 2.0 และ 64.4% ใน Finance Agent v1.1 รวมถึงผลประเมินภายในของ Anthropic ที่ชี้ถึงความสามารถในงาน multi-step และงานการเงิน [
7][
8]
การเทียบ Claude Opus 4.7 อย่างรับผิดชอบจึงไม่ใช่การถามว่าได้คะแนน benchmark เดียวเท่าไร แต่ต้องถามว่า benchmark ใดใกล้กับงานจริงของคุณที่สุด และการทดสอบนั้นตั้งค่าไว้อย่างไร สำหรับงานซอฟต์แวร์ SWE-bench Verified เป็นจุดเริ่มต้นที่ดี ส่วนงานเอเจนต์ terminal การเงิน หรือ research ควรให้ความสำคัญกับคะแนนประกอบอื่น ๆ ไม่แพ้กัน




