การจัดอันดับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ด้วยคะแนนรวมเดียวอาจทำให้เข้าใจผิด เพราะแหล่งข้อมูลที่มีไม่ได้รายงานทุกโมเดลใน benchmark เดียวกันเสมอไป GPT-5.5 และ Claude Opus 4.7 มีตัวเลขเทียบตรงหลายรายการจาก Vellum และ OpenAI ส่วน DeepSeek V4 กับ Kimi K2.6 มีข้อมูลสาธารณะที่เด่นกว่าในด้าน long context, open-weight/multimodal และ reliability จาก DeepSeek technical report และ Artificial Analysis [2][
7][
30][
31][
33][
35][
36]
ภาพรวม: ไม่มีผู้ชนะรวมที่ยืนยันได้ครบทุก benchmark
ข้อสรุปที่ปลอดภัยที่สุดคือ แยกดูตามประเภทงาน ไม่ใช่หาผู้ชนะรวมแบบเด็ดขาด ในชุดตัวเลขที่เทียบ GPT-5.5 กับ Claude Opus 4.7 ได้โดยตรง GPT-5.5 นำบน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4% และ GDPval ที่ 84.9% ต่อ 80.3% ขณะที่ Claude Opus 4.7 นำบน SWE-Bench Pro ที่ 64.3% ต่อ 58.6% และ GPQA Diamond ที่ 94.2% ต่อ 93.6% ตามตารางของ Vellum [2]
ในหมวด computer use และ tool use, OpenAI รายงานว่า GPT-5.5 ได้ 78.7% บน OSWorld-Verified เทียบกับ Claude Opus 4.7 ที่ 78.0%, ได้ 84.4% บน BrowseComp เทียบกับ 79.3%, แต่ตามหลังบน MCP Atlas ที่ GPT-5.5 ได้ 75.3% เทียบกับ Claude Opus 4.7 ที่ 79.1% [7]
สำหรับ DeepSeek V4 และ Kimi K2.6 หลักฐานที่พบไม่ได้ครอบคลุม benchmark เดียวกับ GPT-5.5 และ Claude Opus 4.7 ครบทุกชุด จึงไม่ควรสรุปว่ารุ่นใดชนะหรือแพ้ในหมวดที่ไม่มีคะแนนเทียบตรง [31][
33][
35][
36]
ตารางคะแนนที่เทียบได้จากแหล่งที่มี
| Benchmark / metric | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | อ่านผลอย่างไร |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำ Claude Opus 4.7 ในตารางของ Vellum [ |
| SWE-Bench Pro | 58.6% | 64.3% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | Claude Opus 4.7 นำ GPT-5.5 ใน benchmark งาน software engineering ตาม Vellum [ |
| GDPval | 84.9% | 80.3% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำ Claude Opus 4.7 ในชุดนี้ [ |
| OSWorld-Verified | 78.7% | 78.0% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำเล็กน้อยในตาราง OpenAI [ |
| BrowseComp | 84.4% | 79.3% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำในหมวด tool use ตาม OpenAI [ |
| MCP Atlas | 75.3% | 79.1% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | Claude Opus 4.7 นำ GPT-5.5 ตาม OpenAI [ |
| GPQA Diamond | 93.6% | 94.2% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | Claude Opus 4.7 นำเล็กน้อยตาม Vellum [ |
| FrontierMath T1–3 | 51.7% | 43.8% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำ Claude Opus 4.7 ตาม Vellum [ |
| Context window | ไม่อยู่ในตาราง Artificial Analysis นี้ | ไม่อยู่ในตาราง Artificial Analysis นี้ | DeepSeek V4 Pro: 1,000k tokens | 256k tokens | DeepSeek V4 Pro มี context window ใหญ่กว่า Kimi K2.6 ในแหล่งเดียวกัน [ |
| AA-Omniscience / hallucination | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | V4 Pro Max ได้ -10; V4 Pro hallucination rate 94% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | เป็นสัญญาณว่าต้องตรวจคำตอบของ DeepSeek V4 อย่างระมัดระวัง [ |
| Artificial Analysis Intelligence Index | ไม่พบในแหล่งที่ใช้ | ไม่พบในแหล่งที่ใช้ | ไม่พบในแหล่งที่ใช้ | 54 | ใช้เป็นข้อมูลเฉพาะของ Kimi K2.6 ไม่ใช่ leaderboard เดียวกับ Vellum/OpenAI [ |
คำว่า ไม่พบคะแนนเทียบตรง ไม่ได้แปลว่าโมเดลนั้นแย่กว่า แปลเพียงว่าในแหล่งข้อมูลที่ใช้ ยังไม่พบคะแนนของโมเดลนั้นบน benchmark เดียวกันและภายใต้ผู้ประเมินเดียวกัน
GPT-5.5: เด่นด้าน agentic, terminal และ tool workflow
ในชุดข้อมูลที่ใช้ในบทความนี้ GPT-5.5 เป็นรุ่นที่มีคะแนนสาธารณะเทียบกับ Claude Opus 4.7 ได้หลายหมวดที่สุด โดย Vellum รายงานคะแนน Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond และ FrontierMath ขณะที่ OpenAI รายงาน OSWorld-Verified, BrowseComp และ MCP Atlas [2][
7]
จุดแข็งชัดคือกลุ่มงาน terminal, agentic workflow และ tool use: GPT-5.5 นำ Claude Opus 4.7 บน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4%, BrowseComp ที่ 84.4% ต่อ 79.3% และ OSWorld-Verified ที่ 78.7% ต่อ 78.0% [2][
7] แต่ GPT-5.5 ไม่ได้ชนะทุกหมวด เพราะ Claude Opus 4.7 นำบน SWE-Bench Pro, MCP Atlas และ GPQA Diamond ในแหล่งที่อ้างถึง [
2][
7]
ด้าน safety/evaluation, OpenAI ระบุใน System Card ว่า GPT-5.5 ถูกประเมินด้วย CoT-Control ซึ่งมีมากกว่า 13,000 tasks ที่สร้างจาก benchmark เช่น GPQA, MMLU-Pro, HLE, BFCL และ SWE-Bench Verified [4] ข้อมูลนี้มีประโยชน์ต่อการอ่านด้านการควบคุมพฤติกรรมของโมเดล แต่ไม่ควรนำไปแทนคะแนน performance benchmark โดยตรง
Claude Opus 4.7: สัญญาณเด่นที่สุดคือ software engineering
Anthropic ระบุ Claude Opus 4.7 ใน Claude API Docs พร้อมวันที่ 16 เมษายน 2026 [20] เมื่อดูเฉพาะคะแนนที่เทียบกับ GPT-5.5 ได้โดยตรง จุดแข็งเด่นที่สุดคือ SWE-Bench Pro ซึ่ง Claude Opus 4.7 ได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% [
2]
Claude Opus 4.7 ยังนำ GPT-5.5 บน MCP Atlas ที่ 79.1% ต่อ 75.3% ตามตารางของ OpenAI [7] อย่างไรก็ตาม ในแหล่งเดียวกัน GPT-5.5 นำบน OSWorld-Verified และ BrowseComp ส่วน Vellum รายงานว่า GPT-5.5 นำบน Terminal-Bench 2.0, GDPval และ FrontierMath T1–3 [
2][
7]
สำหรับมุม safety, Anthropic รายงานใน Petri 2.0 ว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ใน Claude models ลดลงแบบ median relative drop 47.3% [22] ตัวเลขนี้ควรอ่านเป็นข้อมูลด้านพฤติกรรมและความปลอดภัยของตระกูล Claude มากกว่าคะแนน performance ของ Claude Opus 4.7 โดยตรง
DeepSeek V4: long context ใหญ่มาก แต่ต้องคุมความเสี่ยง hallucination
เอกสารเทคนิค DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มกลไก hybrid attention เพื่อปรับปรุงประสิทธิภาพสำหรับ long context [30] ในตารางของ Artificial Analysis, DeepSeek V4 Pro มี context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens [
33]
จุดที่ต้องระวังคือ reliability: Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้นจาก DeepSeek V3.2 Reasoning ที่ -21 แต่รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ 96% สำหรับ DeepSeek V4 Flash [31]
ดังนั้น DeepSeek V4 Pro น่าพิจารณาเมื่อโจทย์ต้องการบริบทยาวมาก เช่น การทำงานกับเอกสารขนาดใหญ่หรือ workflow ที่ต้องเก็บบริบทจำนวนมาก แต่ควรใช้ร่วมกับ retrieval grounding, fact-checking หรือ human review โดยเฉพาะงานที่ความผิดพลาดมีต้นทุนสูง [30][
31][
33]
Kimi K2.6: open-weight multimodal ที่ยังต้องการคะแนนเทียบตรงเพิ่ม
Artificial Analysis ระบุว่า Kimi K2.6 เป็น open weights model ที่ปล่อยในเดือนเมษายน 2026 และได้ Artificial Analysis Intelligence Index 54 [35] อีกบทวิเคราะห์ของ Artificial Analysis ระบุว่า Kimi K2.6 รองรับ image และ video input พร้อม text output แบบ native และมี max context length 256k [
36]
เมื่อเทียบเฉพาะ context window ในตารางเดียวกัน Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens [33] แต่ในชุดแหล่งข้อมูลที่ใช้ ยังไม่พบคะแนน Kimi K2.6 ที่เทียบตรงครบกับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified หรือ MCP Atlas [
2][
7][
33][
35][
36]
ภาพรวมคือ Kimi K2.6 เหมาะจะอยู่ใน shortlist สำหรับผู้ที่ต้องการ open-weight multimodal model แต่ยังไม่ควรสรุปว่าเหนือกว่าหรือด้อยกว่า GPT-5.5, Claude Opus 4.7 หรือ DeepSeek V4 ในหมวดที่ไม่มีคะแนนเทียบตรง [35][
36]
เลือกโมเดลตามงาน
| งานที่ต้องทำ | รุ่นที่น่าพิจารณา | เหตุผลจากหลักฐานที่มี |
|---|---|---|
| Terminal automation / agentic workflow | GPT-5.5 | นำ Claude Opus 4.7 บน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4% [ |
| Software engineering / issue solving | Claude Opus 4.7 | นำ GPT-5.5 บน SWE-Bench Pro ที่ 64.3% ต่อ 58.6% [ |
| Browser และ tool workflow | GPT-5.5 หรือ Claude Opus 4.7 แล้วแต่เครื่องมือ | GPT-5.5 นำบน BrowseComp แต่ Claude Opus 4.7 นำบน MCP Atlas [ |
| Computer-use workflow | GPT-5.5 นำเล็กน้อย | OSWorld-Verified อยู่ที่ 78.7% สำหรับ GPT-5.5 และ 78.0% สำหรับ Claude Opus 4.7 [ |
| Long-context ขนาดใหญ่มาก | DeepSeek V4 Pro | Artificial Analysis ระบุ context window 1,000k tokens แต่ควรตรวจคำตอบเพิ่มจากรายงาน hallucination rate 94% [ |
| Open-weight multimodal | Kimi K2.6 | Artificial Analysis ระบุว่าเป็น open weights model และรองรับ image/video input พร้อม text output แบบ native [ |
| งานที่ต้องลด hallucination สูงสุด | ยังสรุปผู้ชนะรวมไม่ได้จากชุดข้อมูลนี้ | มีสัญญาณความเสี่ยงชัดใน DeepSeek V4 แต่ยังไม่มีตัวเลข reliability เทียบตรงครบทั้ง 4 รุ่นในแหล่งเดียวกัน [ |
ข้อจำกัดของ benchmark ที่ควรรู้ก่อนตัดสินใจ
คะแนนจากคนละแหล่งไม่ควรถูกนำมารวมเป็นอันดับเดียวแบบเด็ดขาด เพราะ Vellum, OpenAI และ Artificial Analysis รายงานคนละชุดทดสอบและคนละบริบทการประเมิน [2][
7][
31][
33][
35] แม้แต่ในหมวด coding งานวิชาการยังชี้ว่า benchmark อย่าง HumanEval มีข้อจำกัด และการประเมินที่ใกล้งานจริงควรพิจารณา benchmark ประเภท issue-solving เช่น SWE-Bench ร่วมด้วย [
42]
อีกประเด็นสำคัญคือ context window ไม่ใช่ตัวแทนของความถูกต้องเสมอไป DeepSeek V4 Pro มี context window 1,000k tokens ในตารางของ Artificial Analysis แต่แหล่งเดียวกันรายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro [31][
33] ดังนั้นงาน production ควรมีชุดทดสอบภายในขององค์กรเอง โดยเฉพาะเมื่อใช้โมเดลกับข้อมูลเฉพาะทางหรือ workflow ที่มีความเสี่ยงสูง
สรุป
หากต้องเลือกจากหลักฐานที่มี GPT-5.5 เป็นตัวเลือกที่แข็งแรงสำหรับงาน agentic, terminal และ tool workflow หลายหมวด เพราะนำ Claude Opus 4.7 บน Terminal-Bench 2.0, BrowseComp และ OSWorld-Verified [2][
7] Claude Opus 4.7 น่าเลือกเป็นพิเศษสำหรับงาน software engineering ที่อิง SWE-Bench Pro เพราะทำได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% [
2]
DeepSeek V4 Pro เด่นด้าน long context ด้วยตัวเลข 1,000k tokens แต่ต้องชั่งกับรายงาน hallucination rate 94% ของ Artificial Analysis [31][
33] ส่วน Kimi K2.6 เป็น open-weight multimodal candidate ที่น่าสนใจด้วย context 256k tokens, native image/video input และ Intelligence Index 54 แต่ยังต้องการ benchmark เทียบตรงมากกว่านี้ก่อนสรุปเชิง production อย่างมั่นใจ [
35][
36]




