ถ้าจะหาว่า GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4 ใครเป็นแชมป์เบนช์มาร์กแบบเด็ดขาด คำตอบคือยังสรุปแบบนั้นไม่ได้ เพราะแหล่งข้อมูลใช้คนละชุดทดสอบ คนละโหมดของโมเดล และหลายตารางไม่ได้มีครบทั้ง 4 รุ่น แต่ภาพรวมสำหรับคนเลือกใช้งานค่อนข้างชัด: GPT-5.5 ดูแข็งใน ARC และงานเอเจนต์ที่ทำผ่านเทอร์มินัล, Claude Opus 4.7 เด่นใน HLE และ SWE-Bench Pro, Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจโดยเฉพาะสาย open-weight ส่วน DeepSeek V4 มักไม่ใช่ผู้นำคะแนนสูงสุดในชุดข้อมูลเหล่านี้ แต่ได้เปรียบเรื่องราคา API อย่างชัดเจน[1][
2][
3][
6][
8][
9][
13]
สรุปเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อรุ่น
- GPT-5.5 เหมาะเริ่มทดสอบก่อนถ้างานของคุณคล้าย ARC หรือเอเจนต์ที่ต้องสั่งงานผ่าน shell/terminal: DocsBot ให้ GPT-5.5 ได้ 85% ใน ARC-AGI-2 เทียบกับ 75.8% ของ Claude Opus 4.7 ส่วน VentureBeat ให้ GPT-5.5 ได้ 82.7% ใน Terminal-Bench 2.0 เทียบกับ 69.4% ของ Claude และ 67.9% ของ DeepSeek[
1][
3]
- Claude Opus 4.7 เด่นเมื่องานต้องใช้ reasoning หนักหรือการตรวจโค้ดเชิงลึก: VentureBeat ให้ Claude นำ GPT-5.5 และ DeepSeek ใน Humanity’s Last Exam ทั้งแบบไม่ใช้เครื่องมือและแบบเปิดใช้เครื่องมือ ส่วน DataCamp ให้ Claude ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro[
3][
9]
- Kimi K2.6 ยังมีข้อมูลเทียบตรงกับทุกคู่ไม่มากเท่า GPT และ Claude แต่ตัวเลขที่มีถือว่าสู้ได้: Artificial Analysis ให้ Kimi 54 เทียบกับ GPT-5.5 medium ที่ 57 และ Claude Opus 4.7 non-reasoning high ที่ 52; AkitaOnRails ให้ Kimi 87 ใน coding benchmark[
13][
8]
- DeepSeek V4 ควรถูกมองเป็นตัวเลือก price-performance มากกว่าตัวเต็งคะแนนสูงสุด: Mashable ระบุราคา $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน เทียบกับ GPT-5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25[
2]
ตารางเทียบเบนช์มาร์กสำคัญ
เครื่องหมาย — หมายถึงในข้อมูลที่มี ไม่มีผลลัพธ์ที่เทียบกันได้โดยตรงสำหรับโมเดลนั้น
| เบนช์มาร์ก / แหล่งข้อมูล | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | อ่านผลอย่างไร |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85% | 75.8% | — | — | GPT-5.5 นำ Claude 9.2 จุดเปอร์เซ็นต์[ |
| ARC-AGI-1, DocsBot | 95% | 93.5% | — | — | GPT-5.5 สูงกว่า Claude เล็กน้อย[ |
| Artificial Analysis leaderboard | 57, GPT-5.5 medium | 52, Claude Opus 4.7 non-reasoning high | 54 | — | ในสไลซ์นี้ GPT-5.5 สูงกว่า Kimi และโหมด Claude ที่ถูกนำมาเทียบ; ไม่มี DeepSeek V4 ในข้อมูลที่ให้มา[ |
| Humanity’s Last Exam ไม่ใช้เครื่องมือ, VentureBeat | 41.4% | 46.9% | — | 37.7% | Claude นำในแถวพื้นฐานที่แสดง[ |
| Humanity’s Last Exam เปิดใช้เครื่องมือ, VentureBeat | 52.2%; GPT-5.5 Pro 57.2% | 54.7% | — | 48.2% | Claude สูงกว่า GPT-5.5 แถวพื้นฐาน แต่ GPT-5.5 Pro สูงกว่า Claude[ |
| Terminal-Bench 2.0, VentureBeat | 82.7% | 69.4% | — | 67.9% | เป็นหนึ่งในแถวที่ GPT-5.5 ทิ้งห่างชัดที่สุด[ |
| SWE-Bench Pro, DataCamp | 58.6% | 64.3% | — | 55.4%, DeepSeek V4 Pro | Claude สูงกว่า GPT-5.5 และ DeepSeek V4 Pro[ |
| SWE-Bench Verified, Verdent | — | 87.6% | 80.2% | — | Claude สูงกว่า Kimi ในมุม coding นี้[ |
| Coding benchmark, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude และ GPT-5.5 ใกล้กันมาก; Kimi สูงกว่า DeepSeek V4 ทั้งสองแถว[ |
ทำไมยังไม่ควรประกาศแชมป์รวม
จุดยากไม่ใช่ตัวเลขน้อยเกินไป แต่เป็นตัวเลขที่มาจากคนละเงื่อนไข ตัวอย่างเช่น Artificial Analysis เทียบ GPT-5.5 medium, Kimi K2.6 และ Claude Opus 4.7 non-reasoning high; AkitaOnRails ใช้ GPT-5.5 xHigh/Codex และแยก DeepSeek V4 เป็น Flash กับ Pro; ส่วน VentureBeat ยังแยก GPT-5.5 และ GPT-5.5 Pro ออกเป็นคนละแถว[13][
8][
3]
แม้เทียบเฉพาะ GPT-5.5 กับ Claude Opus 4.7 ภาพก็ยังไม่ใช่เกมขาด LLM Stats ระบุว่าใน 10 เบนช์มาร์กที่ทั้งสองผู้ให้บริการรายงาน Claude Opus 4.7 นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ โดยจุดแข็งของ Claude กระจุกอยู่ที่งาน reasoning-heavy และ review-grade ขณะที่ GPT-5.5 เด่นในงาน long-running tool-use และ shell-driven tasks[4]
GPT-5.5 เด่นตรงไหน
สัญญาณที่ชัดที่สุดของ GPT-5.5 อยู่ที่ ARC และ Terminal-Bench ใน ARC-AGI-2 โมเดลนี้ได้ 85% เทียบกับ 75.8% ของ Claude Opus 4.7 และใน ARC-AGI-1 ได้ 95% เทียบกับ 93.5% ของ Claude[1] ส่วน Terminal-Bench 2.0 ให้ GPT-5.5 ที่ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek ที่ 67.9% อย่างเห็นได้ชัด[
3]
Artificial Analysis ก็ให้ GPT-5.5 medium สูงกว่าสองคู่แข่งที่อยู่ในสไลซ์เดียวกัน: 57 เทียบกับ 54 ของ Kimi K2.6 และ 52 ของ Claude Opus 4.7 non-reasoning high[13] อย่างไรก็ตาม นี่ไม่ใช่ตารางสรุปทุกโหมดของทุกโมเดล เพราะ LLM Stats แสดงอีกด้านว่า Claude Opus 4.7 ชนะ GPT-5.5 ในบางชุดทดสอบด้าน reasoning และ software engineering[
4]
Claude Opus 4.7 เด่นตรงไหน
Claude Opus 4.7 ดูแข็งเป็นพิเศษในงานที่ต้องใช้ reasoning หนักและการตรวจซอฟต์แวร์เชิงลึก ใน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ VentureBeat ให้ Claude 46.9%, GPT-5.5 41.4% และ DeepSeek 37.7%; เมื่อเปิดใช้เครื่องมือ Claude ได้ 54.7%, GPT-5.5 ได้ 52.2% และ DeepSeek ได้ 48.2%[3]
ด้าน coding ระดับแก้ปัญหาซอฟต์แวร์จริง DataCamp ให้ Claude Opus 4.7 ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro[9] ภาพนี้สอดคล้องกับ LLM Stats ที่ระบุว่า Claude นำ GPT-5.5 ใน GPQA, HLE แบบไม่ใช้เครื่องมือ, HLE แบบใช้เครื่องมือ, SWE-Bench Pro, MCP Atlas และ FinanceAgent v1.1[
4]
Kimi K2.6 ควรถูกอ่านอย่างไร
Kimi K2.6 ยังจัดเข้าตารางเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 แบบครบทุกสนามได้ยาก เพราะไม่ได้ปรากฏในทุกแหล่งข้อมูลเดียวกัน ใน Artificial Analysis รุ่นนี้ได้ 54 ต่ำกว่า GPT-5.5 medium ที่ 57 แต่สูงกว่า Claude Opus 4.7 non-reasoning high ที่ 52[13]
ใน coding benchmark ของ AkitaOnRails Kimi K2.6 ได้ 87 ต่ำกว่า Claude Opus 4.7 ที่ 97 และ GPT-5.5 xHigh/Codex ที่ 96 แต่สูงกว่า DeepSeek V4 Flash ที่ 78 และ DeepSeek V4 Pro ที่ 69[8] ส่วน Verdent ให้ตัวเลข SWE-Bench Verified ของ Kimi K2.6 ที่ 80.2% เทียบกับ 87.6% ของ Claude Opus 4.7[
6]
จุดต่างสำคัญของ Kimi คือเส้นทาง open-weight Verdent ระบุว่า weights ของ K2.6 อยู่บน Hugging Face และรันได้ผ่าน vLLM, SGLang หรือ KTransformers โดยคอนฟิกขั้นต่ำที่พอใช้งานได้สำหรับรุ่น INT4 เมื่อย่อ context คือ 4× H100[6] README บน Hugging Face ยังระบุเมตริกด้าน agentic ของ Kimi K2.6 เช่น HLE-Full แบบใช้เครื่องมือ 54.0, BrowseComp 83.2, DeepSearchQA f1-score 92.5, Toolathlon 50.0 และ MCPMark 55.9 แต่ตารางนั้นเทียบ Kimi เป็นหลักกับ GPT-5.4, Claude Opus 4.6 และ Gemini 3.1 Pro ไม่ใช่ชุดโมเดลครบทั้ง 4 รุ่นในบทความนี้[
25]
DeepSeek V4: คะแนนไม่สุด แต่ราคาน่าคิด
ในข้อมูลชุดนี้ DeepSeek V4 มักดูเป็นโมเดลสาย value มากกว่าผู้นำคะแนนดิบ VentureBeat ให้ DeepSeek ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 ใน HLE ทั้งแบบไม่ใช้เครื่องมือและแบบใช้เครื่องมือ รวมถึง Terminal-Bench 2.0[3] DataCamp ให้ DeepSeek V4 Pro ได้ 55.4% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 64.3% ของ Claude Opus 4.7[
9] ขณะที่ AkitaOnRails ให้ DeepSeek V4 Flash 78 และ DeepSeek V4 Pro 69 ต่ำกว่า Kimi K2.6, GPT-5.5 xHigh/Codex และ Claude Opus 4.7 ในตารางเดียวกัน[
8]
แต่ถ้ามองเรื่องต้นทุน DeepSeek V4 เปลี่ยนสมการได้ Mashable ระบุราคา DeepSeek V4 ที่ $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน ขณะที่ GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25[2] นี่ไม่ได้ทำให้ DeepSeek เป็นแชมป์เบนช์มาร์ก แต่ทำให้มันเป็นตัวเลือกที่ควรทดลองสำหรับงานปริมาณมาก งานร่างเบื้องต้น งานความเสี่ยงต่ำ หรือการทำ eval ภายในที่ต้องคุมค่าใช้จ่าย
ถ้าต้องเริ่มทดสอบ ควรเริ่มจากตัวไหน
- ARC, visual reasoning และโจทย์จับแพตเทิร์นเชิงนามธรรม: เริ่มจาก GPT-5.5 เพราะในข้อมูล DocsBot โมเดลนี้สูงกว่า Claude Opus 4.7 ทั้ง ARC-AGI-2 และ ARC-AGI-1[
1]
- Hard reasoning และงานสไตล์ Humanity’s Last Exam: เริ่มจาก Claude Opus 4.7 ถ้าเทียบแถวพื้นฐาน แต่ควรจำไว้ว่าใน VentureBeat แถว GPT-5.5 Pro สูงกว่า Claude เมื่อเปิดใช้เครื่องมือ[
3]
- Terminal, shell-driven agents และ tool-use ระยะยาว: เริ่มจาก GPT-5.5 เพราะ Terminal-Bench 2.0 เป็นผลลัพธ์ตรงที่โดดเด่นที่สุดของ GPT-5.5 ในชุดข้อมูลนี้[
3][
4]
- SWE-Bench Pro และ software engineering ที่เน้น review: เริ่มจาก Claude Opus 4.7 เพราะทั้ง DataCamp และ LLM Stats ชี้ว่า Claude ได้เปรียบใน SWE-Bench Pro[
9][
4]
- งาน coding/agentic ที่ต้องการ open-weight หรือ self-hosted: ทดสอบ Kimi K2.6 ถ้าการรันผ่าน Hugging Face, vLLM, SGLang หรือ KTransformers สำคัญกว่าการเรียกใช้ผ่าน API เพียงอย่างเดียว[
6]
- งานปริมาณสูงที่งบสำคัญกว่าคะแนนสูงสุด: พิจารณา DeepSeek V4 โดยเฉพาะเมื่อค่าใช้จ่ายต่อการลองหนึ่งครั้งสำคัญกว่า benchmark score สูงสุด[
2][
3][
9]
บทสรุป
ถ้ามองเฉพาะเบนช์มาร์ก คู่บนสุดคือ GPT-5.5 กับ Claude Opus 4.7 แต่ทั้งสองเด่นคนละสนาม GPT-5.5 ดูแข็งกว่าใน ARC และ Terminal-Bench ส่วน Claude Opus 4.7 ดูแข็งกว่าใน HLE และ SWE-Bench Pro[1][
3][
4][
9] Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจ โดยเฉพาะเมื่อต้องการเส้นทาง open-weight แต่ข้อมูลเทียบตรงกับทุกโมเดลยังน้อยกว่า[
6][
8][
13] ส่วน DeepSeek V4 ในชุดข้อมูลนี้มักตามหลังด้าน raw score แต่ราคา API ทำให้ยังเป็นตัวเลือกสำคัญสำหรับการทดลองแบบ price-performance[
2][
3][
9]




