คะแนน benchmark ของโมเดล AI ช่วยให้เราตัดตัวเลือกได้เร็วขึ้น แต่ไม่ควรอ่านเหมือนตารางคะแนนฟุตบอลที่ทุกทีมแข่งสนามเดียวกัน กติกาเดียวกันเสมอไป สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แหล่งข้อมูลที่อ้างได้ในชุดนี้มาจากหน้าประกาศและ system card ของ OpenAI, เอกสาร API ของ Anthropic และ model card ของ DeepSeek V4-Pro ไม่ใช่การทดสอบสี่ฝ่ายครบชุดจากบุคคลที่สาม ภายใต้เวอร์ชันและการตั้งค่าเดียวกันทั้งหมด [29][
27][
13][
6]
ตั้งชื่อรุ่นให้ตรงกันก่อน
ในบทความนี้ DeepSeek V4 หมายถึง DS-V4-Pro Max และ Kimi K2.6 หมายถึง K2.6 Thinking เพราะเป็นชื่อคอลัมน์ที่ปรากฏโดยตรงในตารางของ DeepSeek [6]
จุดนี้สำคัญมาก: ใน model card ของ DeepSeek คอลัมน์ GPT และ Claude ที่ถูกนำมาเทียบคือ GPT-5.4 xHigh และ Opus-4.6 Max ไม่ใช่ GPT-5.5 และ Claude Opus 4.7 ที่เรากำลังพูดถึงในบทความนี้ [6] ดังนั้นจึงเอาตาราง DeepSeek มาใช้ตัดสินแบบครบถ้วนไม่ได้ว่า DS-V4-Pro Max ชนะหรือแพ้ GPT-5.5 และ Claude Opus 4.7 อย่างไร
ส่วนเอกสารสาธารณะของ Claude Opus 4.7 ที่อ้างได้จาก Anthropic ในชุดข้อมูลนี้เน้นฟีเจอร์และวิธีเรียกใช้ API เช่น task budgets13]
จุดตัดที่เทียบตรงได้ที่สุด: Terminal-Bench 2.0
ในข้อมูลที่อ้างได้ มี benchmark หนึ่งที่ทั้งสี่โมเดลมีตัวเลขให้เทียบกันได้ คือ Terminal-Bench 2.0 ผลเรียงตามคะแนนในตารางสาธารณะเป็นดังนี้
| โมเดล | Terminal-Bench 2.0 | แหล่งที่มา |
|---|---|---|
| GPT-5.5 | 82.7% | หน้าประกาศ OpenAI และสรุปของ MLQ.ai [ |
| Claude Opus 4.7 | 69.4% | หน้าประกาศ OpenAI [ |
| DeepSeek V4-Pro Max | 67.9% | model card ของ DeepSeek V4-Pro [ |
| Kimi K2.6 Thinking | 66.7% | model card ของ DeepSeek V4-Pro [ |
ข้อสรุปที่พูดได้อย่างมั่นคงจึงแคบแต่มีประโยชน์: ใน Terminal-Bench 2.0 รายการเดียว GPT-5.5 นำชัดเจน, Claude Opus 4.7 อยู่ลำดับสอง, ส่วน DeepSeek V4-Pro Max กับ Kimi K2.6 Thinking อยู่ใกล้กัน [29][
30][
6]
แต่คะแนนชุดนี้ไม่ได้แปลว่า GPT-5.5 จะชนะทุกงานในโลกจริงโดยอัตโนมัติ และไม่สามารถแทนการทดสอบซ้ำภายใต้ชุดประเมินเดียวกัน สิทธิ์ใช้เครื่องมือเดียวกัน ความยาว context เดียวกัน และงบ reasoning เดียวกันได้
GPT-5.5 เทียบ Claude Opus 4.7: อ่านได้จากตารางของ OpenAI
หน้าประกาศของ OpenAI ให้คะแนนเปรียบเทียบ GPT-5.5 กับ Claude Opus 4.7 หลายรายการ และในรายการที่แสดง GPT-5.5 ทำคะแนนสูงกว่า Claude Opus 4.7 ทั้งหมด [29]
| Benchmark ในตาราง OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
การอ่านที่ปลอดภัยคือ: ใน benchmark ที่ OpenAI นำมาแสดง GPT-5.5 สูงกว่า Claude Opus 4.7 [29] นอกจากนี้ system card ของ OpenAI ยังวางตำแหน่ง GPT-5.5 เป็นโมเดลสำหรับงานจริงที่ซับซ้อน เช่น เขียนโค้ด ค้นคว้าออนไลน์ วิเคราะห์ข้อมูล สร้างเอกสารและสเปรดชีต รวมถึงทำงานข้ามเครื่องมือ [
27]
อย่างไรก็ดี นี่ยังเป็นตารางเปรียบเทียบจากหน้าประกาศของ OpenAI ไม่ใช่การทดสอบสี่โมเดลจากบุคคลที่สามด้วย harness เดียวกัน [29]
DeepSeek V4-Pro Max เทียบ Kimi K2.6 Thinking: อ่านได้จากตารางของ DeepSeek
model card ของ DeepSeek V4-Pro มีตารางเทียบ DS-V4-Pro Max กับ K2.6 Thinking หลายรายการ [6] ภายในตารางนี้ DeepSeek V4-Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายหัวข้อ แต่ Kimi ก็มีรายการที่นำชัดเจนเช่นกัน [
6]
| Benchmark ใน model card ของ DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | ผู้นำในตาราง |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
ดังนั้นข้อสรุปที่ควรใช้คือ: ในรายการส่วนใหญ่ที่ DeepSeek แสดง DS-V4-Pro Max สูงกว่า K2.6 Thinking แต่ Kimi K2.6 Thinking นำใน GPQA Diamond และ SWE Pro [6] สำหรับรายการที่ส่วนต่างไม่มาก เช่น MMLU-Pro และ Terminal-Bench 2.0 ไม่ควรตัดสินจากทิศทางนำเพียงอย่างเดียว ควรดูประเภทงานและความคลาดเคลื่อนของการทดสอบด้วย
ทำไมยังจัดอันดับรวมสี่โมเดลไม่ได้
กับ benchmark ของโมเดล AI ข้อผิดพลาดที่เจอบ่อยคือหยิบตารางจากหลายค่ายมารวมกัน แล้วประกาศผู้ชนะรวมทันที ข้อมูลสาธารณะชุดนี้ยังไม่รองรับวิธีนั้น ด้วยเหตุผลหลักสามข้อ
- เวอร์ชันไม่ตรงกัน — ตาราง OpenAI เทียบ GPT-5.5 กับ Claude Opus 4.7 แต่ตาราง DeepSeek ใช้คอลัมน์ GPT-5.4 xHigh และ Opus-4.6 Max [
29][
6]
- แหล่งที่มาไม่เหมือนกัน — ข้อมูลมาจากหน้าประกาศ, system card, เอกสาร API และ model card ของผู้พัฒนา ไม่ใช่การทดสอบรวมจากบุคคลที่สามชุดเดียวกัน [
29][
27][
13][
6]
- ตัวชี้วัดวัดคนละเรื่อง — GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond และ SWE Pro ไม่ได้วัดความสามารถเดียวกันทั้งหมด ถ้าไม่มีน้ำหนักคะแนนที่ชัดเจน การบวกเป็นคะแนนรวมจะกลบความต่างของงานจริง [
29][
6]
พูดง่าย ๆ คือ benchmark สาธารณะเหมาะกับการคัดกรองรอบแรก มากกว่าจะใช้เป็นเหตุผลสุดท้ายในการซื้อ เลือกสถาปัตยกรรม หรือย้ายระบบทั้งหมด
ถ้าต้องเลือกใช้จริง ควรอ่านคะแนนอย่างไร
วิธีที่ใช้ได้จริงกว่า คือแยกการตัดสินใจเป็นสามชั้น
- ชั้น benchmark ร่วม: ตอนนี้จุดตัดที่ชัดที่สุดของทั้งสี่ชื่อคือ Terminal-Bench 2.0 และในรายการนี้ GPT-5.5 นำ [
29][
30][
6]
- ชั้นการเทียบภายในตารางของแต่ละค่าย: ตาราง OpenAI รองรับข้อสรุปว่า GPT-5.5 สูงกว่า Claude Opus 4.7 ในรายการที่แสดง ส่วน model card ของ DeepSeek รองรับข้อสรุปว่า DS-V4-Pro Max สูงกว่า K2.6 Thinking ในหลายรายการ [
29][
6]
- ชั้นทดสอบกับงานของคุณเอง: แยกงานเป็น coding, agent, reasoning, retrieval, tool use, latency และ cost แล้วทดสอบซ้ำด้วย prompt เดียวกัน context เดียวกัน สิทธิ์เครื่องมือเดียวกัน และเกณฑ์ให้คะแนนเดียวกัน
ถ้าผลิตภัณฑ์ของคุณต้องพึ่งรอบการทำงานแบบ agent ที่ยาว ฟีเจอร์ task budgets13]
ถ้างานของคุณใกล้กับการเขียนโค้ดซับซ้อน การค้นคว้าออนไลน์ การสร้างเอกสารหรือสเปรดชีต และการทำงานข้ามเครื่องมือ คำอธิบายใน system card ของ GPT-5.5 เชื่อมกับงานกลุ่มนี้โดยตรงกว่า [27] แต่ต่อให้โมเดลหนึ่งนำในตารางสาธารณะ ก็ยังควรนำไปทดสอบกับ codebase, toolchain, ขอบเขต permission และกติกาการกู้คืนเมื่อเกิดความล้มเหลวของระบบคุณเอง
สรุปแบบที่พูดได้ปลอดภัยที่สุด
- Terminal-Bench 2.0 รายการเดียว: GPT-5.5 อันดับหนึ่ง, Claude Opus 4.7 อันดับสอง, DeepSeek V4-Pro Max อันดับสาม และ Kimi K2.6 Thinking อันดับสี่ [
29][
30][
6]
- ภายในตาราง OpenAI: GPT-5.5 สูงกว่า Claude Opus 4.7 ใน benchmark ที่ OpenAI แสดง [
29]
- ภายในตาราง DeepSeek: DS-V4-Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro [
6]
- อันดับรวมสี่โมเดลแบบเด็ดขาด: หลักฐานยังไม่พอ เพราะยังไม่มีการทดสอบครบสี่ฝ่ายภายใต้บุคคลที่สาม เวอร์ชันเดียวกัน และเงื่อนไขเดียวกันทั้งหมด [
29][
13][
6]




