เบนช์มาร์ก AI ปี 2026 อ่านยากกว่าที่เห็น เพราะชื่อโมเดลหลายรุ่นมักถูกนำไปวางในตารางเดียวกัน ทั้งที่อาจไม่ได้ทดสอบบนเบนช์มาร์กเดียวกัน เวอร์ชันเดียวกัน หรือเงื่อนไขการรันเดียวกัน ในชุดข้อมูลที่มี หลักฐานที่เทียบแบบหัวชนหัวได้ชัดที่สุดคือ Claude Opus 4.7 กับ GPT-5.5 เพราะทั้งคู่ปรากฏในเบนช์มาร์กเดียวกันจากตารางของ OpenAI และ Vellum [5][
2]
ส่วน DeepSeek V4 และ Kimi K2.6 ยังไม่มีคะแนนโดยตรงในแหล่งข้อมูลชุดนี้ ตัวเลขที่ใกล้ที่สุดกลับเป็นของ DeepSeek V3.2, KimiK2.5 และ Kimi K2 Thinking ซึ่งใช้แทนกันไม่ได้ [1][
13][
6]
ประเด็นสำคัญ
- GPT-5.5 ดูแข็งแรงที่สุดในข้อมูลที่มีสำหรับงานเทอร์มินัล/CLI งานออฟฟิศและงานมืออาชีพ งานเบราว์เซอร์/ค้นหา และบางเบนช์มาร์กคณิตศาสตร์ [
5][
2]
- Claude Opus 4.7 ดูแข็งแรงกว่าสำหรับ SWE-Bench Pro Public, MCP/tool orchestration และ FinanceAgent v1.1 ในชุดเบนช์มาร์กเดียวกัน [
5][
2]
- DeepSeek V4 และ Kimi K2.6 ยังไม่ควรถูกจัดอันดับเทียบกับ Claude Opus 4.7 หรือ GPT-5.5 จากข้อมูลชุดนี้ เพราะคะแนนที่มีเป็นของรุ่นอื่น [
1][
13][
6]
ตัวเลขที่เทียบกันได้จริง
ตารางนี้คัดเฉพาะกรณีที่ Claude Opus 4.7 และ GPT-5.5 ถูกวัดบนเบนช์มาร์กเดียวกัน ส่วน GPT-5.5 Pro ระบุเฉพาะจุดที่แหล่งข้อมูลแยกเป็นรุ่นย่อยต่างหาก [2]
| โจทย์ใช้งาน | เบนช์มาร์ก | ผลที่รายงาน | อ่านผลอย่างไร |
|---|---|---|---|
| ซ่อมโค้ดในรีโพ | SWE-Bench Pro Public | Claude Opus 4.7 64.3% vs GPT-5.5 58.6% [ | Claude นำในสนามนี้ |
| เอเจนต์เทอร์มินัล/CLI | Terminal-Bench 2.0 | GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [ | GPT-5.5 นำชัดที่สุดในหมวดเทอร์มินัล |
| งานมืออาชีพและงานออฟฟิศ | GDPval; OfficeQA Pro | GPT-5.5 84.9% vs Claude 80.3% ใน GDPval; GPT-5.5 54.1% vs Claude 43.6% ใน OfficeQA Pro [ | GPT-5.5 แข็งแรงกว่าบนสองเมตริกงานมืออาชีพนี้ |
| เอเจนต์ด้านการเงิน | FinanceAgent v1.1 | Claude 64.4% vs GPT-5.5 60.0% [ | Claude นำใน eval ด้าน finance agent นี้ |
| งานคอมพิวเตอร์/เบราว์เซอร์ | OSWorld-Verified; BrowseComp | GPT-5.5 78.7% vs Claude 78.0% ใน OSWorld; GPT-5.5 84.4% และ GPT-5.5 Pro 90.1% vs Claude 79.3% ใน BrowseComp [ | OSWorld แทบเสมอกัน; GPT-5.5 สูงกว่าใน BrowseComp |
| การประสานงานเครื่องมือ | MCP Atlas | Claude 79.1% vs GPT-5.5 75.3% [ | Claude แข็งแรงกว่าในสถานการณ์ที่ใช้เครื่องมือหลายตัว/MCP |
| เหตุผลเชิงวิทยาศาสตร์และคณิตศาสตร์ | GPQA Diamond; FrontierMath T1–3 | Claude 94.2% vs GPT-5.5 93.6% ใน GPQA; GPT-5.5 51.7% และ GPT-5.5 Pro 52.4% vs Claude 43.8% ใน FrontierMath [ | GPQA ใกล้กันมาก; GPT-5.5 นำใน FrontierMath |
อ่านเบนช์มาร์กอย่างไรไม่ให้สรุปผิด
1. อย่าสับสนระหว่าง SWE-Bench Pro กับ SWE-bench Verified
OpenAI ใช้ SWE-Bench Pro Public ในตารางเทียบ GPT-5.5 กับ Claude Opus 4.7 [5] ซึ่งไม่ใช่สิ่งเดียวกับ SWE-bench Verified โดย BenchLM อธิบาย SWE-bench Verified ว่าเป็นชุดย่อยของ SWE-bench ที่ผ่านการตรวจโดยมนุษย์ ใช้ทดสอบว่าโมเดลแก้ issue จริงจาก GitHub ได้หรือไม่ เช่น issue จากรีโพ Python ยอดนิยมอย่าง Django, Flask และ scikit-learn [
21]
ดังนั้น คะแนน Claude 64.3% บน SWE-Bench Pro Public ไม่ควรถูกนำไปเทียบตรง ๆ กับคะแนน Claude บน SWE-bench Verified จากลีดเดอร์บอร์ดอื่นโดยไม่ตรวจชื่อเบนช์มาร์ก ชุดรันหรือ harness วันที่ประเมิน และคอนฟิกของโมเดลก่อน [5][
21]
2. GPQA Diamond เริ่มแยกโมเดลระดับ frontier ได้ไม่คมเท่าเดิม
Vellum วาง Claude Opus 4.7 ไว้ที่ 94.2% และ GPT-5.5 ที่ 93.6% บน GPQA Diamond [2] ขณะที่ The Next Web รายงานว่า Claude Opus 4.7 ได้ 94.2%, GPT-5.4 Pro ได้ 94.4% และ Gemini 3.1 Pro ได้ 94.3% พร้อมระบุว่าส่วนต่างของโมเดลกลุ่มนี้อยู่ในระดับ noise [
17]
พูดง่าย ๆ คือ GPQA ยังเป็นสัญญาณที่ดีสำหรับดูความสามารถ reasoning โดยรวม แต่ไม่พอจะใช้เป็นตัวตัดสินเดี่ยว ๆ สำหรับเลือกโมเดลไปใช้งานจริง
3. ลีดเดอร์บอร์ดจากคนละแหล่งอาจให้ตัวเลขไม่เท่ากัน
บน SWE-bench Verified คะแนน Claude Opus 4.7 ไม่ตรงกันทุกแหล่ง BenchLM รายงาน Claude Opus 4.7 Adaptive ที่ 87.6% ณ 24 เมษายน 2026 [21] และ LLM Stats ก็ระบุ 87.6% เช่นกัน [
18] แต่ LM Council แสดง Claude Opus 4.7 max ที่ 83.5% ±1.7 [
10] ส่วน MindStudio ระบุ 82.4% [
14]
ความต่างนี้ไม่ได้แปลว่าต้องมีแหล่งใดแหล่งหนึ่งผิดเสมอไป สาเหตุอาจมาจากคอนฟิกโมเดล วิธีรัน eval วันที่ทดสอบ หรือกติกาว่าจะนับ retry และ reasoning mode อย่างไร สำหรับทีมวิศวกรรม ตัวเลขสาธารณะควรใช้เป็นจุดเริ่มต้นในการคัด shortlist ไม่ใช่แทนการทดสอบกับรีโพและ workflow ของทีมเอง
Claude Opus 4.7: เด่นที่การซ่อมรีโพและการประสานงานเครื่องมือ
สัญญาณที่แข็งแรงที่สุดของ Claude Opus 4.7 อยู่ที่งานซ่อมโค้ดและเอเจนต์ที่ต้องใช้เครื่องมือหลายตัว ในตารางของ OpenAI Claude นำ GPT-5.5 บน SWE-Bench Pro Public ที่ 64.3% ต่อ 58.6% และนำใน FinanceAgent v1.1 ที่ 64.4% ต่อ 60.0% [5] Vellum ยังรายงานว่า Claude นำใน MCP Atlas ที่ 79.1% ต่อ GPT-5.5 ที่ 75.3% [
2]
Anthropic เองก็เน้น eval จากพาร์ตเนอร์ที่เกี่ยวข้องกับ agentic workflows ใน launch note ของ Claude Opus 4.7 Anthropic อ้างถึง Hebbia ซึ่งเห็นการเพิ่มขึ้นระดับเลขสองหลักของความแม่นยำในการเรียกใช้เครื่องมือและการวางแผนใน orchestrator agents รวมถึง Rakuten-SWE-Bench ที่รายงานว่า Opus 4.7 แก้ production tasks ได้มากกว่า Opus 4.6 ถึง 3 เท่า พร้อมคะแนน Code Quality และ Test Quality เพิ่มขึ้นระดับเลขสองหลัก [19]
ข้อสรุปเชิงปฏิบัติ: ถ้างานหลักคือ autonomous repo repair, MCP หรือ workflow ยาว ๆ ที่ต้องเรียกหลายเครื่องมือ Claude Opus 4.7 ควรถูกนำมาทดลองก่อน แต่ผลสาธารณะยังต้องยืนยันซ้ำกับ test suite, permission model และรูปแบบ tool call ที่ทีมใช้จริง
GPT-5.5: เด่นที่เทอร์มินัล เบราว์เซอร์ งานออฟฟิศ และคณิตศาสตร์ในข้อมูลชุดนี้
จุดนำของ GPT-5.5 ชัดที่สุดใน Terminal-Bench 2.0 โดย OpenAI รายงานว่า GPT-5.5 ได้ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% และ Gemini 3.1 Pro ที่ 68.5% [5] ในตารางเดียวกัน GPT-5.5 ยังสูงกว่า Claude ใน GDPval wins/ties ที่ 84.9% ต่อ 80.3% และ OfficeQA Pro ที่ 54.1% ต่อ 43.6% [
5]
Vellum เพิ่มบริบทด้าน computer-use, search และ reasoning โดย GPT-5.5 สูงกว่า Claude เล็กน้อยใน OSWorld-Verified ที่ 78.7% ต่อ 78.0%; สูงกว่าใน BrowseComp ที่ 84.4% ต่อ 79.3%; และสูงกว่าใน FrontierMath T1–3 ที่ 51.7% ต่อ 43.8% [2] สำหรับ BrowseComp นั้น Vellum ยังรายงาน GPT-5.5 Pro ที่ 90.1% [
2]
ด้าน coding ภาพยังผสมกัน GPT-5.5 แข็งแรงมากใน Terminal-Bench 2.0 แต่ตามหลัง Claude Opus 4.7 บน SWE-Bench Pro Public ในตารางของ OpenAI [5] OpenAI System Card ยังอธิบาย CoT-Control สำหรับ GPT-5.5 ซึ่งเป็นชุด eval มากกว่า 13,000 งานจาก benchmark เช่น GPQA, MMLU-Pro, HLE, BFCL และ SWE-Bench Verified [
26] อย่างไรก็ตาม แหล่งนั้นไม่ได้ให้การเทียบโดยตรงกับ DeepSeek V4 หรือ Kimi K2.6 [
26]
DeepSeek V4 และ Kimi K2.6: ยังไม่มีหลักฐานตรงในแหล่งข้อมูลชุดนี้
สำหรับ DeepSeek V4 แหล่งข้อมูลที่มีไม่ให้คะแนน benchmark โดยตรง ข้อมูลที่ใกล้ที่สุดเป็นของ DeepSeek V3.2 โดย MangoMind จัด DeepSeek V3.2 ไว้ในคำแนะนำด้าน coding เดือนเมษายน 2026 ด้วยคะแนน SWE-bench 89.2% ต่ำกว่า Claude Opus 4.6 ที่ 93.2% และ GPT-5.4 Pro ที่ 91.1% [1] ตัวเลขของ DeepSeek V3.2 จึงใช้สรุป performance ของ DeepSeek V4 ไม่ได้
สำหรับ Kimi K2.6 สถานการณ์เหมือนกัน Stanford HAI ระบุว่า KimiK2.5 อยู่ในกลุ่มโมเดล 70%–76% บน SWE-bench Verified ณ เดือนกุมภาพันธ์ 2026 [13] ส่วน Siliconflow ระบุ Kimi K2 Thinking ที่ GPQA 84.5 และ SWE Bench 71.3 [
6] ทั้งสองไม่ใช่ Kimi K2.6 จึงใช้ได้แค่เป็นบริบทของระบบนิเวศ Kimi ไม่ใช่หลักฐาน benchmark ตรงของรุ่นที่ถาม
คำแนะนำสำหรับทีมผลิตภัณฑ์และวิศวกรรม
| ถ้าโจทย์หลักของคุณคือ... | โมเดลที่ควรทดสอบก่อน | หลักฐาน | ข้อควรระวัง |
|---|---|---|---|
| เอเจนต์ coding ผ่านเทอร์มินัล/CLI | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82.7% vs Claude 69.4% [ | ทดสอบซ้ำกับ shell environment, permission model และ CI/CD ภายใน |
| ซ่อมรีโพแบบ autonomous | Claude Opus 4.7 แล้วค่อยใช้ GPT-5.5 เป็นตัวเทียบ | SWE-Bench Pro Public: Claude 64.3% vs GPT-5.5 58.6% [ | อย่าปนกับ SWE-bench Verified หากยังไม่เทียบ harness ให้ตรงกัน [ |
| MCP หรือ multi-tool orchestration | Claude Opus 4.7 | MCP Atlas: Claude 79.1% vs GPT-5.5 75.3% [ | ตรวจ tool schema, retry logic และ access policy ของระบบคุณเอง |
| เอเจนต์เบราว์เซอร์/ค้นหา | GPT-5.5 หรือ GPT-5.5 Pro | BrowseComp: GPT-5.5 84.4%, GPT-5.5 Pro 90.1%, Claude 79.3% [ | อย่าเหมารวมว่า BrowseComp แทนทุกโจทย์วิจัยภายในได้ทั้งหมด |
| งานการเงิน/งานมืออาชีพ | ทำ split test ระหว่าง Claude และ GPT-5.5 | Claude นำใน FinanceAgent v1.1 แต่ GPT-5.5 นำใน GDPval และ OfficeQA Pro [ | MindStudio ชี้ว่าช่องว่างจากคะแนน benchmark ด้าน finance ไปสู่เครื่องมือ production มักอยู่ที่โครงสร้างพื้นฐาน end-to-end ไม่ใช่แค่ intelligence ของโมเดล [ |
| reasoning วิทยาศาสตร์ทั่วไป | อย่าเลือกจาก GPQA อย่างเดียว | คะแนน GPQA Diamond ของ Claude และ GPT-5.5 ใกล้กันมากใน Vellum [ | ใช้ eval เฉพาะโดเมน โดยเฉพาะถ้างานจริงต่างจากโจทย์ benchmark |
บทสรุป
ถ้าดูเฉพาะหลักฐาน head-to-head ที่มี GPT-5.5 เป็นตัวเลือกที่แข็งแรงกว่าสำหรับเอเจนต์เทอร์มินัล/CLI งานเบราว์เซอร์/ค้นหา งานออฟฟิศ และบางเบนช์มาร์กคณิตศาสตร์ [5][
2] ส่วน Claude Opus 4.7 เป็นตัวเลือกที่แข็งแรงกว่าสำหรับ SWE-Bench Pro Public, MCP/tool orchestration และ FinanceAgent v1.1 [
5][
2]
แต่ DeepSeek V4 และ Kimi K2.6 ยังจัดอันดับเทียบกับสองรุ่นนี้อย่างเป็นธรรมไม่ได้จากแหล่งข้อมูลชุดนี้ เพราะตัวเลขที่มีเป็นของ DeepSeek V3.2, KimiK2.5 และ Kimi K2 Thinking ดังนั้นคำกล่าวว่า DeepSeek V4 หรือ Kimi K2.6 เหนือกว่า Claude Opus 4.7 หรือ GPT-5.5 ยังไม่มีคะแนน benchmark โดยตรงรองรับในชุดข้อมูลนี้ [1][
13][
6]




