studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว12 แหล่งที่มา

Claude Opus 4.7 vs GPT-5.5: เบนช์มาร์ก AI 2026 ที่เทียบกันได้จริง

ข้อมูลที่เทียบแบบหัวชนหัวได้จริงชี้ว่า GPT 5.5 ชนะ Terminal Bench 2.0 ที่ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% ขณะที่ Claude ชนะ SWE Bench Pro Public ที่ 64.3% เทียบกับ 58.6% [5] ไม่มีโมเดลใดเป็นแชมป์ทุกสนาม: Claude Opus 4.7 สูงกว่าใน MCP Atlas และ FinanceAgent v1.1 ส่วน GPT 5.5 สูงกว่าใน BrowseComp, GDPval, Off...

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

เบนช์มาร์ก AI ปี 2026 อ่านยากกว่าที่เห็น เพราะชื่อโมเดลหลายรุ่นมักถูกนำไปวางในตารางเดียวกัน ทั้งที่อาจไม่ได้ทดสอบบนเบนช์มาร์กเดียวกัน เวอร์ชันเดียวกัน หรือเงื่อนไขการรันเดียวกัน ในชุดข้อมูลที่มี หลักฐานที่เทียบแบบหัวชนหัวได้ชัดที่สุดคือ Claude Opus 4.7 กับ GPT-5.5 เพราะทั้งคู่ปรากฏในเบนช์มาร์กเดียวกันจากตารางของ OpenAI และ Vellum [5][2]

ส่วน DeepSeek V4 และ Kimi K2.6 ยังไม่มีคะแนนโดยตรงในแหล่งข้อมูลชุดนี้ ตัวเลขที่ใกล้ที่สุดกลับเป็นของ DeepSeek V3.2, KimiK2.5 และ Kimi K2 Thinking ซึ่งใช้แทนกันไม่ได้ [1][13][6]

ประเด็นสำคัญ

  • GPT-5.5 ดูแข็งแรงที่สุดในข้อมูลที่มีสำหรับงานเทอร์มินัล/CLI งานออฟฟิศและงานมืออาชีพ งานเบราว์เซอร์/ค้นหา และบางเบนช์มาร์กคณิตศาสตร์ [5][2]
  • Claude Opus 4.7 ดูแข็งแรงกว่าสำหรับ SWE-Bench Pro Public, MCP/tool orchestration และ FinanceAgent v1.1 ในชุดเบนช์มาร์กเดียวกัน [5][2]
  • DeepSeek V4 และ Kimi K2.6 ยังไม่ควรถูกจัดอันดับเทียบกับ Claude Opus 4.7 หรือ GPT-5.5 จากข้อมูลชุดนี้ เพราะคะแนนที่มีเป็นของรุ่นอื่น [1][13][6]

ตัวเลขที่เทียบกันได้จริง

ตารางนี้คัดเฉพาะกรณีที่ Claude Opus 4.7 และ GPT-5.5 ถูกวัดบนเบนช์มาร์กเดียวกัน ส่วน GPT-5.5 Pro ระบุเฉพาะจุดที่แหล่งข้อมูลแยกเป็นรุ่นย่อยต่างหาก [2]

โจทย์ใช้งานเบนช์มาร์กผลที่รายงานอ่านผลอย่างไร
ซ่อมโค้ดในรีโพSWE-Bench Pro PublicClaude Opus 4.7 64.3% vs GPT-5.5 58.6% [5]Claude นำในสนามนี้
เอเจนต์เทอร์มินัล/CLITerminal-Bench 2.0GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [5]GPT-5.5 นำชัดที่สุดในหมวดเทอร์มินัล
งานมืออาชีพและงานออฟฟิศGDPval; OfficeQA ProGPT-5.5 84.9% vs Claude 80.3% ใน GDPval; GPT-5.5 54.1% vs Claude 43.6% ใน OfficeQA Pro [5]GPT-5.5 แข็งแรงกว่าบนสองเมตริกงานมืออาชีพนี้
เอเจนต์ด้านการเงินFinanceAgent v1.1Claude 64.4% vs GPT-5.5 60.0% [5]Claude นำใน eval ด้าน finance agent นี้
งานคอมพิวเตอร์/เบราว์เซอร์OSWorld-Verified; BrowseCompGPT-5.5 78.7% vs Claude 78.0% ใน OSWorld; GPT-5.5 84.4% และ GPT-5.5 Pro 90.1% vs Claude 79.3% ใน BrowseComp [2]OSWorld แทบเสมอกัน; GPT-5.5 สูงกว่าใน BrowseComp
การประสานงานเครื่องมือMCP AtlasClaude 79.1% vs GPT-5.5 75.3% [2]Claude แข็งแรงกว่าในสถานการณ์ที่ใช้เครื่องมือหลายตัว/MCP
เหตุผลเชิงวิทยาศาสตร์และคณิตศาสตร์GPQA Diamond; FrontierMath T1–3Claude 94.2% vs GPT-5.5 93.6% ใน GPQA; GPT-5.5 51.7% และ GPT-5.5 Pro 52.4% vs Claude 43.8% ใน FrontierMath [2]GPQA ใกล้กันมาก; GPT-5.5 นำใน FrontierMath

อ่านเบนช์มาร์กอย่างไรไม่ให้สรุปผิด

1. อย่าสับสนระหว่าง SWE-Bench Pro กับ SWE-bench Verified

OpenAI ใช้ SWE-Bench Pro Public ในตารางเทียบ GPT-5.5 กับ Claude Opus 4.7 [5] ซึ่งไม่ใช่สิ่งเดียวกับ SWE-bench Verified โดย BenchLM อธิบาย SWE-bench Verified ว่าเป็นชุดย่อยของ SWE-bench ที่ผ่านการตรวจโดยมนุษย์ ใช้ทดสอบว่าโมเดลแก้ issue จริงจาก GitHub ได้หรือไม่ เช่น issue จากรีโพ Python ยอดนิยมอย่าง Django, Flask และ scikit-learn [21]

ดังนั้น คะแนน Claude 64.3% บน SWE-Bench Pro Public ไม่ควรถูกนำไปเทียบตรง ๆ กับคะแนน Claude บน SWE-bench Verified จากลีดเดอร์บอร์ดอื่นโดยไม่ตรวจชื่อเบนช์มาร์ก ชุดรันหรือ harness วันที่ประเมิน และคอนฟิกของโมเดลก่อน [5][21]

2. GPQA Diamond เริ่มแยกโมเดลระดับ frontier ได้ไม่คมเท่าเดิม

Vellum วาง Claude Opus 4.7 ไว้ที่ 94.2% และ GPT-5.5 ที่ 93.6% บน GPQA Diamond [2] ขณะที่ The Next Web รายงานว่า Claude Opus 4.7 ได้ 94.2%, GPT-5.4 Pro ได้ 94.4% และ Gemini 3.1 Pro ได้ 94.3% พร้อมระบุว่าส่วนต่างของโมเดลกลุ่มนี้อยู่ในระดับ noise [17]

พูดง่าย ๆ คือ GPQA ยังเป็นสัญญาณที่ดีสำหรับดูความสามารถ reasoning โดยรวม แต่ไม่พอจะใช้เป็นตัวตัดสินเดี่ยว ๆ สำหรับเลือกโมเดลไปใช้งานจริง

3. ลีดเดอร์บอร์ดจากคนละแหล่งอาจให้ตัวเลขไม่เท่ากัน

บน SWE-bench Verified คะแนน Claude Opus 4.7 ไม่ตรงกันทุกแหล่ง BenchLM รายงาน Claude Opus 4.7 Adaptive ที่ 87.6% ณ 24 เมษายน 2026 [21] และ LLM Stats ก็ระบุ 87.6% เช่นกัน [18] แต่ LM Council แสดง Claude Opus 4.7 max ที่ 83.5% ±1.7 [10] ส่วน MindStudio ระบุ 82.4% [14]

ความต่างนี้ไม่ได้แปลว่าต้องมีแหล่งใดแหล่งหนึ่งผิดเสมอไป สาเหตุอาจมาจากคอนฟิกโมเดล วิธีรัน eval วันที่ทดสอบ หรือกติกาว่าจะนับ retry และ reasoning mode อย่างไร สำหรับทีมวิศวกรรม ตัวเลขสาธารณะควรใช้เป็นจุดเริ่มต้นในการคัด shortlist ไม่ใช่แทนการทดสอบกับรีโพและ workflow ของทีมเอง

Claude Opus 4.7: เด่นที่การซ่อมรีโพและการประสานงานเครื่องมือ

สัญญาณที่แข็งแรงที่สุดของ Claude Opus 4.7 อยู่ที่งานซ่อมโค้ดและเอเจนต์ที่ต้องใช้เครื่องมือหลายตัว ในตารางของ OpenAI Claude นำ GPT-5.5 บน SWE-Bench Pro Public ที่ 64.3% ต่อ 58.6% และนำใน FinanceAgent v1.1 ที่ 64.4% ต่อ 60.0% [5] Vellum ยังรายงานว่า Claude นำใน MCP Atlas ที่ 79.1% ต่อ GPT-5.5 ที่ 75.3% [2]

Anthropic เองก็เน้น eval จากพาร์ตเนอร์ที่เกี่ยวข้องกับ agentic workflows ใน launch note ของ Claude Opus 4.7 Anthropic อ้างถึง Hebbia ซึ่งเห็นการเพิ่มขึ้นระดับเลขสองหลักของความแม่นยำในการเรียกใช้เครื่องมือและการวางแผนใน orchestrator agents รวมถึง Rakuten-SWE-Bench ที่รายงานว่า Opus 4.7 แก้ production tasks ได้มากกว่า Opus 4.6 ถึง 3 เท่า พร้อมคะแนน Code Quality และ Test Quality เพิ่มขึ้นระดับเลขสองหลัก [19]

ข้อสรุปเชิงปฏิบัติ: ถ้างานหลักคือ autonomous repo repair, MCP หรือ workflow ยาว ๆ ที่ต้องเรียกหลายเครื่องมือ Claude Opus 4.7 ควรถูกนำมาทดลองก่อน แต่ผลสาธารณะยังต้องยืนยันซ้ำกับ test suite, permission model และรูปแบบ tool call ที่ทีมใช้จริง

GPT-5.5: เด่นที่เทอร์มินัล เบราว์เซอร์ งานออฟฟิศ และคณิตศาสตร์ในข้อมูลชุดนี้

จุดนำของ GPT-5.5 ชัดที่สุดใน Terminal-Bench 2.0 โดย OpenAI รายงานว่า GPT-5.5 ได้ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% และ Gemini 3.1 Pro ที่ 68.5% [5] ในตารางเดียวกัน GPT-5.5 ยังสูงกว่า Claude ใน GDPval wins/ties ที่ 84.9% ต่อ 80.3% และ OfficeQA Pro ที่ 54.1% ต่อ 43.6% [5]

Vellum เพิ่มบริบทด้าน computer-use, search และ reasoning โดย GPT-5.5 สูงกว่า Claude เล็กน้อยใน OSWorld-Verified ที่ 78.7% ต่อ 78.0%; สูงกว่าใน BrowseComp ที่ 84.4% ต่อ 79.3%; และสูงกว่าใน FrontierMath T1–3 ที่ 51.7% ต่อ 43.8% [2] สำหรับ BrowseComp นั้น Vellum ยังรายงาน GPT-5.5 Pro ที่ 90.1% [2]

ด้าน coding ภาพยังผสมกัน GPT-5.5 แข็งแรงมากใน Terminal-Bench 2.0 แต่ตามหลัง Claude Opus 4.7 บน SWE-Bench Pro Public ในตารางของ OpenAI [5] OpenAI System Card ยังอธิบาย CoT-Control สำหรับ GPT-5.5 ซึ่งเป็นชุด eval มากกว่า 13,000 งานจาก benchmark เช่น GPQA, MMLU-Pro, HLE, BFCL และ SWE-Bench Verified [26] อย่างไรก็ตาม แหล่งนั้นไม่ได้ให้การเทียบโดยตรงกับ DeepSeek V4 หรือ Kimi K2.6 [26]

DeepSeek V4 และ Kimi K2.6: ยังไม่มีหลักฐานตรงในแหล่งข้อมูลชุดนี้

สำหรับ DeepSeek V4 แหล่งข้อมูลที่มีไม่ให้คะแนน benchmark โดยตรง ข้อมูลที่ใกล้ที่สุดเป็นของ DeepSeek V3.2 โดย MangoMind จัด DeepSeek V3.2 ไว้ในคำแนะนำด้าน coding เดือนเมษายน 2026 ด้วยคะแนน SWE-bench 89.2% ต่ำกว่า Claude Opus 4.6 ที่ 93.2% และ GPT-5.4 Pro ที่ 91.1% [1] ตัวเลขของ DeepSeek V3.2 จึงใช้สรุป performance ของ DeepSeek V4 ไม่ได้

สำหรับ Kimi K2.6 สถานการณ์เหมือนกัน Stanford HAI ระบุว่า KimiK2.5 อยู่ในกลุ่มโมเดล 70%–76% บน SWE-bench Verified ณ เดือนกุมภาพันธ์ 2026 [13] ส่วน Siliconflow ระบุ Kimi K2 Thinking ที่ GPQA 84.5 และ SWE Bench 71.3 [6] ทั้งสองไม่ใช่ Kimi K2.6 จึงใช้ได้แค่เป็นบริบทของระบบนิเวศ Kimi ไม่ใช่หลักฐาน benchmark ตรงของรุ่นที่ถาม

คำแนะนำสำหรับทีมผลิตภัณฑ์และวิศวกรรม

ถ้าโจทย์หลักของคุณคือ...โมเดลที่ควรทดสอบก่อนหลักฐานข้อควรระวัง
เอเจนต์ coding ผ่านเทอร์มินัล/CLIGPT-5.5Terminal-Bench 2.0: GPT-5.5 82.7% vs Claude 69.4% [5]ทดสอบซ้ำกับ shell environment, permission model และ CI/CD ภายใน
ซ่อมรีโพแบบ autonomousClaude Opus 4.7 แล้วค่อยใช้ GPT-5.5 เป็นตัวเทียบSWE-Bench Pro Public: Claude 64.3% vs GPT-5.5 58.6% [5]อย่าปนกับ SWE-bench Verified หากยังไม่เทียบ harness ให้ตรงกัน [21]
MCP หรือ multi-tool orchestrationClaude Opus 4.7MCP Atlas: Claude 79.1% vs GPT-5.5 75.3% [2]ตรวจ tool schema, retry logic และ access policy ของระบบคุณเอง
เอเจนต์เบราว์เซอร์/ค้นหาGPT-5.5 หรือ GPT-5.5 ProBrowseComp: GPT-5.5 84.4%, GPT-5.5 Pro 90.1%, Claude 79.3% [2]อย่าเหมารวมว่า BrowseComp แทนทุกโจทย์วิจัยภายในได้ทั้งหมด
งานการเงิน/งานมืออาชีพทำ split test ระหว่าง Claude และ GPT-5.5Claude นำใน FinanceAgent v1.1 แต่ GPT-5.5 นำใน GDPval และ OfficeQA Pro [5]MindStudio ชี้ว่าช่องว่างจากคะแนน benchmark ด้าน finance ไปสู่เครื่องมือ production มักอยู่ที่โครงสร้างพื้นฐาน end-to-end ไม่ใช่แค่ intelligence ของโมเดล [14]
reasoning วิทยาศาสตร์ทั่วไปอย่าเลือกจาก GPQA อย่างเดียวคะแนน GPQA Diamond ของ Claude และ GPT-5.5 ใกล้กันมากใน Vellum [2]ใช้ eval เฉพาะโดเมน โดยเฉพาะถ้างานจริงต่างจากโจทย์ benchmark

บทสรุป

ถ้าดูเฉพาะหลักฐาน head-to-head ที่มี GPT-5.5 เป็นตัวเลือกที่แข็งแรงกว่าสำหรับเอเจนต์เทอร์มินัล/CLI งานเบราว์เซอร์/ค้นหา งานออฟฟิศ และบางเบนช์มาร์กคณิตศาสตร์ [5][2] ส่วน Claude Opus 4.7 เป็นตัวเลือกที่แข็งแรงกว่าสำหรับ SWE-Bench Pro Public, MCP/tool orchestration และ FinanceAgent v1.1 [5][2]

แต่ DeepSeek V4 และ Kimi K2.6 ยังจัดอันดับเทียบกับสองรุ่นนี้อย่างเป็นธรรมไม่ได้จากแหล่งข้อมูลชุดนี้ เพราะตัวเลขที่มีเป็นของ DeepSeek V3.2, KimiK2.5 และ Kimi K2 Thinking ดังนั้นคำกล่าวว่า DeepSeek V4 หรือ Kimi K2.6 เหนือกว่า Claude Opus 4.7 หรือ GPT-5.5 ยังไม่มีคะแนน benchmark โดยตรงรองรับในชุดข้อมูลนี้ [1][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • ข้อมูลที่เทียบแบบหัวชนหัวได้จริงชี้ว่า GPT 5.5 ชนะ Terminal Bench 2.0 ที่ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% ขณะที่ Claude ชนะ SWE Bench Pro Public ที่ 64.3% เทียบกับ 58.6% [5]
  • ไม่มีโมเดลใดเป็นแชมป์ทุกสนาม: Claude Opus 4.7 สูงกว่าใน MCP Atlas และ FinanceAgent v1.1 ส่วน GPT 5.5 สูงกว่าใน BrowseComp, GDPval, OfficeQA Pro และ FrontierMath ตามตารางที่มี [2][5]
  • DeepSeek V4 และ Kimi K2.6 ยังจัดอันดับเทียบกับ Claude Opus 4.7 หรือ GPT 5.5 อย่างเป็นธรรมไม่ได้ เพราะแหล่งข้อมูลมีตัวเลขของ DeepSeek V3.2, KimiK2.5 และ Kimi K2 Thinking ไม่ใช่รุ่นที่ถูกถาม [1][13][6]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Claude Opus 4.7 vs GPT-5.5: เบนช์มาร์ก AI 2026 ที่เทียบกันได้จริง" คืออะไร

ข้อมูลที่เทียบแบบหัวชนหัวได้จริงชี้ว่า GPT 5.5 ชนะ Terminal Bench 2.0 ที่ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% ขณะที่ Claude ชนะ SWE Bench Pro Public ที่ 64.3% เทียบกับ 58.6% [5]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ข้อมูลที่เทียบแบบหัวชนหัวได้จริงชี้ว่า GPT 5.5 ชนะ Terminal Bench 2.0 ที่ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% ขณะที่ Claude ชนะ SWE Bench Pro Public ที่ 64.3% เทียบกับ 58.6% [5] ไม่มีโมเดลใดเป็นแชมป์ทุกสนาม: Claude Opus 4.7 สูงกว่าใน MCP Atlas และ FinanceAgent v1.1 ส่วน GPT 5.5 สูงกว่าใน BrowseComp, GDPval, OfficeQA Pro และ FrontierMath ตามตารางที่มี [2][5]

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 และ Kimi K2.6 ยังจัดอันดับเทียบกับ Claude Opus 4.7 หรือ GPT 5.5 อย่างเป็นธรรมไม่ได้ เพราะแหล่งข้อมูลมีตัวเลขของ DeepSeek V3.2, KimiK2.5 และ Kimi K2 Thinking ไม่ใช่รุ่นที่ถูกถาม [1][13][6]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 แหล่งที่มา

อ้างถึงคำตอบ

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

แหล่งที่มา

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...