ยังไม่มี benchmark เดียวที่เทียบทั้ง 4 รุ่นแบบ apples to apples ได้ครบ: GPT 5.5 นำ Claude Opus 4.7 บน Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% แต่ Claude นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6%. DeepSeek V4 Pro เด่นที่สุดด้านบริบทยาวในข้อมูลที่มี ด้วย context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ Ar...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login
การจัดอันดับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ด้วยคะแนนรวมเดียวอาจทำให้เข้าใจผิด เพราะแหล่งข้อมูลที่มีไม่ได้รายงานทุกโมเดลใน benchmark เดียวกันเสมอไป GPT-5.5 และ Claude Opus 4.7 มีตัวเลขเทียบตรงหลายรายการจาก Vellum และ OpenAI ส่วน DeepSeek V4 กับ Kimi K2.6 มีข้อมูลสาธารณะที่เด่นกว่าในด้าน long context, open-weight/multimodal และ reliability จาก DeepSeek technical report และ Artificial Analysis [2][
7][
30][
31][
33][
35][
36]
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
ยังไม่มี benchmark เดียวที่เทียบทั้ง 4 รุ่นแบบ apples to apples ได้ครบ: GPT 5.5 นำ Claude Opus 4.7 บน Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% แต่ Claude นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6%.
ยังไม่มี benchmark เดียวที่เทียบทั้ง 4 รุ่นแบบ apples to apples ได้ครบ: GPT 5.5 นำ Claude Opus 4.7 บน Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% แต่ Claude นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6%. DeepSeek V4 Pro เด่นที่สุดด้านบริบทยาวในข้อมูลที่มี ด้วย context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ Artificial Analysis รายงาน hallucination rate 94% สำหรับ V4 Pro
Kimi K2.6 เหมาะอยู่ใน shortlist สำหรับ open weight multimodal เพราะรองรับ image/video input และได้ Intelligence Index 54 แต่ยังขาดคะแนนเทียบตรงกับ GPT 5.5 และ Claude ในหลาย benchmark
ดำเนินการต่อด้วย "คู่มืออ่านสอบตำรวจฮ่องกง: ICAC อำนาจตำรวจ และความรับผิด" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม
Open related pageตรวจสอบคำตอบนี้กับ "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข"
Open related pageBenchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...
Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...
ข้อสรุปที่ปลอดภัยที่สุดคือ แยกดูตามประเภทงาน ไม่ใช่หาผู้ชนะรวมแบบเด็ดขาด ในชุดตัวเลขที่เทียบ GPT-5.5 กับ Claude Opus 4.7 ได้โดยตรง GPT-5.5 นำบน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4% และ GDPval ที่ 84.9% ต่อ 80.3% ขณะที่ Claude Opus 4.7 นำบน SWE-Bench Pro ที่ 64.3% ต่อ 58.6% และ GPQA Diamond ที่ 94.2% ต่อ 93.6% ตามตารางของ Vellum [2]
ในหมวด computer use และ tool use, OpenAI รายงานว่า GPT-5.5 ได้ 78.7% บน OSWorld-Verified เทียบกับ Claude Opus 4.7 ที่ 78.0%, ได้ 84.4% บน BrowseComp เทียบกับ 79.3%, แต่ตามหลังบน MCP Atlas ที่ GPT-5.5 ได้ 75.3% เทียบกับ Claude Opus 4.7 ที่ 79.1% [7]
สำหรับ DeepSeek V4 และ Kimi K2.6 หลักฐานที่พบไม่ได้ครอบคลุม benchmark เดียวกับ GPT-5.5 และ Claude Opus 4.7 ครบทุกชุด จึงไม่ควรสรุปว่ารุ่นใดชนะหรือแพ้ในหมวดที่ไม่มีคะแนนเทียบตรง [31][
33][
35][
36]
| Benchmark / metric | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | อ่านผลอย่างไร |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำ Claude Opus 4.7 ในตารางของ Vellum [ |
| SWE-Bench Pro | 58.6% | 64.3% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | Claude Opus 4.7 นำ GPT-5.5 ใน benchmark งาน software engineering ตาม Vellum [ |
| GDPval | 84.9% | 80.3% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำ Claude Opus 4.7 ในชุดนี้ [ |
| OSWorld-Verified | 78.7% | 78.0% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำเล็กน้อยในตาราง OpenAI [ |
| BrowseComp | 84.4% | 79.3% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำในหมวด tool use ตาม OpenAI [ |
| MCP Atlas | 75.3% | 79.1% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | Claude Opus 4.7 นำ GPT-5.5 ตาม OpenAI [ |
| GPQA Diamond | 93.6% | 94.2% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | Claude Opus 4.7 นำเล็กน้อยตาม Vellum [ |
| FrontierMath T1–3 | 51.7% | 43.8% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | GPT-5.5 นำ Claude Opus 4.7 ตาม Vellum [ |
| Context window | ไม่อยู่ในตาราง Artificial Analysis นี้ | ไม่อยู่ในตาราง Artificial Analysis นี้ | DeepSeek V4 Pro: 1,000k tokens | 256k tokens | DeepSeek V4 Pro มี context window ใหญ่กว่า Kimi K2.6 ในแหล่งเดียวกัน [ |
| AA-Omniscience / hallucination | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | V4 Pro Max ได้ -10; V4 Pro hallucination rate 94% | ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน | เป็นสัญญาณว่าต้องตรวจคำตอบของ DeepSeek V4 อย่างระมัดระวัง [ |
| Artificial Analysis Intelligence Index | ไม่พบในแหล่งที่ใช้ | ไม่พบในแหล่งที่ใช้ | ไม่พบในแหล่งที่ใช้ | 54 | ใช้เป็นข้อมูลเฉพาะของ Kimi K2.6 ไม่ใช่ leaderboard เดียวกับ Vellum/OpenAI [ |
คำว่า ไม่พบคะแนนเทียบตรง ไม่ได้แปลว่าโมเดลนั้นแย่กว่า แปลเพียงว่าในแหล่งข้อมูลที่ใช้ ยังไม่พบคะแนนของโมเดลนั้นบน benchmark เดียวกันและภายใต้ผู้ประเมินเดียวกัน
ในชุดข้อมูลที่ใช้ในบทความนี้ GPT-5.5 เป็นรุ่นที่มีคะแนนสาธารณะเทียบกับ Claude Opus 4.7 ได้หลายหมวดที่สุด โดย Vellum รายงานคะแนน Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond และ FrontierMath ขณะที่ OpenAI รายงาน OSWorld-Verified, BrowseComp และ MCP Atlas [2][
7]
จุดแข็งชัดคือกลุ่มงาน terminal, agentic workflow และ tool use: GPT-5.5 นำ Claude Opus 4.7 บน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4%, BrowseComp ที่ 84.4% ต่อ 79.3% และ OSWorld-Verified ที่ 78.7% ต่อ 78.0% [2][
7] แต่ GPT-5.5 ไม่ได้ชนะทุกหมวด เพราะ Claude Opus 4.7 นำบน SWE-Bench Pro, MCP Atlas และ GPQA Diamond ในแหล่งที่อ้างถึง [
2][
7]
ด้าน safety/evaluation, OpenAI ระบุใน System Card ว่า GPT-5.5 ถูกประเมินด้วย CoT-Control ซึ่งมีมากกว่า 13,000 tasks ที่สร้างจาก benchmark เช่น GPQA, MMLU-Pro, HLE, BFCL และ SWE-Bench Verified [4] ข้อมูลนี้มีประโยชน์ต่อการอ่านด้านการควบคุมพฤติกรรมของโมเดล แต่ไม่ควรนำไปแทนคะแนน performance benchmark โดยตรง
Anthropic ระบุ Claude Opus 4.7 ใน Claude API Docs พร้อมวันที่ 16 เมษายน 2026 [20] เมื่อดูเฉพาะคะแนนที่เทียบกับ GPT-5.5 ได้โดยตรง จุดแข็งเด่นที่สุดคือ SWE-Bench Pro ซึ่ง Claude Opus 4.7 ได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% [
2]
Claude Opus 4.7 ยังนำ GPT-5.5 บน MCP Atlas ที่ 79.1% ต่อ 75.3% ตามตารางของ OpenAI [7] อย่างไรก็ตาม ในแหล่งเดียวกัน GPT-5.5 นำบน OSWorld-Verified และ BrowseComp ส่วน Vellum รายงานว่า GPT-5.5 นำบน Terminal-Bench 2.0, GDPval และ FrontierMath T1–3 [
2][
7]
สำหรับมุม safety, Anthropic รายงานใน Petri 2.0 ว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ใน Claude models ลดลงแบบ median relative drop 47.3% [22] ตัวเลขนี้ควรอ่านเป็นข้อมูลด้านพฤติกรรมและความปลอดภัยของตระกูล Claude มากกว่าคะแนน performance ของ Claude Opus 4.7 โดยตรง
เอกสารเทคนิค DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มกลไก hybrid attention เพื่อปรับปรุงประสิทธิภาพสำหรับ long context [30] ในตารางของ Artificial Analysis, DeepSeek V4 Pro มี context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens [
33]
จุดที่ต้องระวังคือ reliability: Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้นจาก DeepSeek V3.2 Reasoning ที่ -21 แต่รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ 96% สำหรับ DeepSeek V4 Flash [31]
ดังนั้น DeepSeek V4 Pro น่าพิจารณาเมื่อโจทย์ต้องการบริบทยาวมาก เช่น การทำงานกับเอกสารขนาดใหญ่หรือ workflow ที่ต้องเก็บบริบทจำนวนมาก แต่ควรใช้ร่วมกับ retrieval grounding, fact-checking หรือ human review โดยเฉพาะงานที่ความผิดพลาดมีต้นทุนสูง [30][
31][
33]
Artificial Analysis ระบุว่า Kimi K2.6 เป็น open weights model ที่ปล่อยในเดือนเมษายน 2026 และได้ Artificial Analysis Intelligence Index 54 [35] อีกบทวิเคราะห์ของ Artificial Analysis ระบุว่า Kimi K2.6 รองรับ image และ video input พร้อม text output แบบ native และมี max context length 256k [
36]
เมื่อเทียบเฉพาะ context window ในตารางเดียวกัน Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens [33] แต่ในชุดแหล่งข้อมูลที่ใช้ ยังไม่พบคะแนน Kimi K2.6 ที่เทียบตรงครบกับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified หรือ MCP Atlas [
2][
7][
33][
35][
36]
ภาพรวมคือ Kimi K2.6 เหมาะจะอยู่ใน shortlist สำหรับผู้ที่ต้องการ open-weight multimodal model แต่ยังไม่ควรสรุปว่าเหนือกว่าหรือด้อยกว่า GPT-5.5, Claude Opus 4.7 หรือ DeepSeek V4 ในหมวดที่ไม่มีคะแนนเทียบตรง [35][
36]
| งานที่ต้องทำ | รุ่นที่น่าพิจารณา | เหตุผลจากหลักฐานที่มี |
|---|---|---|
| Terminal automation / agentic workflow | GPT-5.5 | นำ Claude Opus 4.7 บน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4% [ |
| Software engineering / issue solving | Claude Opus 4.7 | นำ GPT-5.5 บน SWE-Bench Pro ที่ 64.3% ต่อ 58.6% [ |
| Browser และ tool workflow | GPT-5.5 หรือ Claude Opus 4.7 แล้วแต่เครื่องมือ | GPT-5.5 นำบน BrowseComp แต่ Claude Opus 4.7 นำบน MCP Atlas [ |
| Computer-use workflow | GPT-5.5 นำเล็กน้อย | OSWorld-Verified อยู่ที่ 78.7% สำหรับ GPT-5.5 และ 78.0% สำหรับ Claude Opus 4.7 [ |
| Long-context ขนาดใหญ่มาก | DeepSeek V4 Pro | Artificial Analysis ระบุ context window 1,000k tokens แต่ควรตรวจคำตอบเพิ่มจากรายงาน hallucination rate 94% [ |
| Open-weight multimodal | Kimi K2.6 | Artificial Analysis ระบุว่าเป็น open weights model และรองรับ image/video input พร้อม text output แบบ native [ |
| งานที่ต้องลด hallucination สูงสุด | ยังสรุปผู้ชนะรวมไม่ได้จากชุดข้อมูลนี้ | มีสัญญาณความเสี่ยงชัดใน DeepSeek V4 แต่ยังไม่มีตัวเลข reliability เทียบตรงครบทั้ง 4 รุ่นในแหล่งเดียวกัน [ |
คะแนนจากคนละแหล่งไม่ควรถูกนำมารวมเป็นอันดับเดียวแบบเด็ดขาด เพราะ Vellum, OpenAI และ Artificial Analysis รายงานคนละชุดทดสอบและคนละบริบทการประเมิน [2][
7][
31][
33][
35] แม้แต่ในหมวด coding งานวิชาการยังชี้ว่า benchmark อย่าง HumanEval มีข้อจำกัด และการประเมินที่ใกล้งานจริงควรพิจารณา benchmark ประเภท issue-solving เช่น SWE-Bench ร่วมด้วย [
42]
อีกประเด็นสำคัญคือ context window ไม่ใช่ตัวแทนของความถูกต้องเสมอไป DeepSeek V4 Pro มี context window 1,000k tokens ในตารางของ Artificial Analysis แต่แหล่งเดียวกันรายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro [31][
33] ดังนั้นงาน production ควรมีชุดทดสอบภายในขององค์กรเอง โดยเฉพาะเมื่อใช้โมเดลกับข้อมูลเฉพาะทางหรือ workflow ที่มีความเสี่ยงสูง
หากต้องเลือกจากหลักฐานที่มี GPT-5.5 เป็นตัวเลือกที่แข็งแรงสำหรับงาน agentic, terminal และ tool workflow หลายหมวด เพราะนำ Claude Opus 4.7 บน Terminal-Bench 2.0, BrowseComp และ OSWorld-Verified [2][
7] Claude Opus 4.7 น่าเลือกเป็นพิเศษสำหรับงาน software engineering ที่อิง SWE-Bench Pro เพราะทำได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% [
2]
DeepSeek V4 Pro เด่นด้าน long context ด้วยตัวเลข 1,000k tokens แต่ต้องชั่งกับรายงาน hallucination rate 94% ของ Artificial Analysis [31][
33] ส่วน Kimi K2.6 เป็น open-weight multimodal candidate ที่น่าสนใจด้วย context 256k tokens, native image/video input และ Intelligence Index 54 แต่ยังต้องการ benchmark เทียบตรงมากกว่านี้ก่อนสรุปเชิง production อย่างมั่นใจ [
35][
36]
The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026
Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
… Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024