รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และวิธีเลือกโมเดลให้ตรงงาน

ยังไม่มี benchmark เดียวที่เทียบทั้ง 4 รุ่นแบบ apples to apples ได้ครบ: GPT 5.5 นำ Claude Opus 4.7 บน Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% แต่ Claude นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6%. DeepSeek V4 Pro เด่นที่สุดด้านบริบทยาวในข้อมูลที่มี ด้วย context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ Ar...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

15K0

ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login
openai.com

การจัดอันดับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ด้วยคะแนนรวมเดียวอาจทำให้เข้าใจผิด เพราะแหล่งข้อมูลที่มีไม่ได้รายงานทุกโมเดลใน benchmark เดียวกันเสมอไป GPT-5.5 และ Claude Opus 4.7 มีตัวเลขเทียบตรงหลายรายการจาก Vellum และ OpenAI ส่วน DeepSeek V4 กับ Kimi K2.6 มีข้อมูลสาธารณะที่เด่นกว่าในด้าน long context, open-weight/multimodal และ reliability จาก DeepSeek technical report และ Artificial Analysis ^[2]^[7]^[30]^[31]^[33]^[35]^[36]

ภาพรวม: ไม่มีผู้ชนะรวมที่ยืนยันได้ครบทุก benchmark

ข้อสรุปที่ปลอดภัยที่สุดคือ แยกดูตามประเภทงาน ไม่ใช่หาผู้ชนะรวมแบบเด็ดขาด ในชุดตัวเลขที่เทียบ GPT-5.5 กับ Claude Opus 4.7 ได้โดยตรง GPT-5.5 นำบน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4% และ GDPval ที่ 84.9% ต่อ 80.3% ขณะที่ Claude Opus 4.7 นำบน SWE-Bench Pro ที่ 64.3% ต่อ 58.6% และ GPQA Diamond ที่ 94.2% ต่อ 93.6% ตามตารางของ Vellum ^[2]

ในหมวด computer use และ tool use, OpenAI รายงานว่า GPT-5.5 ได้ 78.7% บน OSWorld-Verified เทียบกับ Claude Opus 4.7 ที่ 78.0%, ได้ 84.4% บน BrowseComp เทียบกับ 79.3%, แต่ตามหลังบน MCP Atlas ที่ GPT-5.5 ได้ 75.3% เทียบกับ Claude Opus 4.7 ที่ 79.1% ^[7]

สำหรับ DeepSeek V4 และ Kimi K2.6 หลักฐานที่พบไม่ได้ครอบคลุม benchmark เดียวกับ GPT-5.5 และ Claude Opus 4.7 ครบทุกชุด จึงไม่ควรสรุปว่ารุ่นใดชนะหรือแพ้ในหมวดที่ไม่มีคะแนนเทียบตรง ^[31]^[33]^[35]^[36]

ตารางคะแนนที่เทียบได้จากแหล่งที่มี

Benchmark / metric	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	อ่านผลอย่างไร
Terminal-Bench 2.0	82.7%	69.4%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	GPT-5.5 นำ Claude Opus 4.7 ในตารางของ Vellum ^[2]
SWE-Bench Pro	58.6%	64.3%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	Claude Opus 4.7 นำ GPT-5.5 ใน benchmark งาน software engineering ตาม Vellum ^[2]
GDPval	84.9%	80.3%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	GPT-5.5 นำ Claude Opus 4.7 ในชุดนี้ ^[2]
OSWorld-Verified	78.7%	78.0%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	GPT-5.5 นำเล็กน้อยในตาราง OpenAI ^[7]
BrowseComp	84.4%	79.3%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	GPT-5.5 นำในหมวด tool use ตาม OpenAI ^[7]
MCP Atlas	75.3%	79.1%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	Claude Opus 4.7 นำ GPT-5.5 ตาม OpenAI ^[7]
GPQA Diamond	93.6%	94.2%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	Claude Opus 4.7 นำเล็กน้อยตาม Vellum ^[2]
FrontierMath T1–3	51.7%	43.8%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	GPT-5.5 นำ Claude Opus 4.7 ตาม Vellum ^[2]
Context window	ไม่อยู่ในตาราง Artificial Analysis นี้	ไม่อยู่ในตาราง Artificial Analysis นี้	DeepSeek V4 Pro: 1,000k tokens	256k tokens	DeepSeek V4 Pro มี context window ใหญ่กว่า Kimi K2.6 ในแหล่งเดียวกัน ^[33]
AA-Omniscience / hallucination	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	V4 Pro Max ได้ -10; V4 Pro hallucination rate 94%	ไม่พบคะแนนเทียบตรงในแหล่งเดียวกัน	เป็นสัญญาณว่าต้องตรวจคำตอบของ DeepSeek V4 อย่างระมัดระวัง ^[31]
Artificial Analysis Intelligence Index	ไม่พบในแหล่งที่ใช้	ไม่พบในแหล่งที่ใช้	ไม่พบในแหล่งที่ใช้	54	ใช้เป็นข้อมูลเฉพาะของ Kimi K2.6 ไม่ใช่ leaderboard เดียวกับ Vellum/OpenAI ^[35]

คำว่า ไม่พบคะแนนเทียบตรง ไม่ได้แปลว่าโมเดลนั้นแย่กว่า แปลเพียงว่าในแหล่งข้อมูลที่ใช้ ยังไม่พบคะแนนของโมเดลนั้นบน benchmark เดียวกันและภายใต้ผู้ประเมินเดียวกัน

GPT-5.5: เด่นด้าน agentic, terminal และ tool workflow

ในชุดข้อมูลที่ใช้ในบทความนี้ GPT-5.5 เป็นรุ่นที่มีคะแนนสาธารณะเทียบกับ Claude Opus 4.7 ได้หลายหมวดที่สุด โดย Vellum รายงานคะแนน Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond และ FrontierMath ขณะที่ OpenAI รายงาน OSWorld-Verified, BrowseComp และ MCP Atlas ^[2]^[7]

จุดแข็งชัดคือกลุ่มงาน terminal, agentic workflow และ tool use: GPT-5.5 นำ Claude Opus 4.7 บน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4%, BrowseComp ที่ 84.4% ต่อ 79.3% และ OSWorld-Verified ที่ 78.7% ต่อ 78.0% ^[2]^[7] แต่ GPT-5.5 ไม่ได้ชนะทุกหมวด เพราะ Claude Opus 4.7 นำบน SWE-Bench Pro, MCP Atlas และ GPQA Diamond ในแหล่งที่อ้างถึง ^[2]^[7]

ด้าน safety/evaluation, OpenAI ระบุใน System Card ว่า GPT-5.5 ถูกประเมินด้วย CoT-Control ซึ่งมีมากกว่า 13,000 tasks ที่สร้างจาก benchmark เช่น GPQA, MMLU-Pro, HLE, BFCL และ SWE-Bench Verified ^[4] ข้อมูลนี้มีประโยชน์ต่อการอ่านด้านการควบคุมพฤติกรรมของโมเดล แต่ไม่ควรนำไปแทนคะแนน performance benchmark โดยตรง

Claude Opus 4.7: สัญญาณเด่นที่สุดคือ software engineering

Anthropic ระบุ Claude Opus 4.7 ใน Claude API Docs พร้อมวันที่ 16 เมษายน 2026 ^[20] เมื่อดูเฉพาะคะแนนที่เทียบกับ GPT-5.5 ได้โดยตรง จุดแข็งเด่นที่สุดคือ SWE-Bench Pro ซึ่ง Claude Opus 4.7 ได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% ^[2]

Claude Opus 4.7 ยังนำ GPT-5.5 บน MCP Atlas ที่ 79.1% ต่อ 75.3% ตามตารางของ OpenAI ^[7] อย่างไรก็ตาม ในแหล่งเดียวกัน GPT-5.5 นำบน OSWorld-Verified และ BrowseComp ส่วน Vellum รายงานว่า GPT-5.5 นำบน Terminal-Bench 2.0, GDPval และ FrontierMath T1–3 ^[2]^[7]

สำหรับมุม safety, Anthropic รายงานใน Petri 2.0 ว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ใน Claude models ลดลงแบบ median relative drop 47.3% ^[22] ตัวเลขนี้ควรอ่านเป็นข้อมูลด้านพฤติกรรมและความปลอดภัยของตระกูล Claude มากกว่าคะแนน performance ของ Claude Opus 4.7 โดยตรง

DeepSeek V4: long context ใหญ่มาก แต่ต้องคุมความเสี่ยง hallucination

เอกสารเทคนิค DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มกลไก hybrid attention เพื่อปรับปรุงประสิทธิภาพสำหรับ long context ^[30] ในตารางของ Artificial Analysis, DeepSeek V4 Pro มี context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens ^[33]

จุดที่ต้องระวังคือ reliability: Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้นจาก DeepSeek V3.2 Reasoning ที่ -21 แต่รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ 96% สำหรับ DeepSeek V4 Flash ^[31]

ดังนั้น DeepSeek V4 Pro น่าพิจารณาเมื่อโจทย์ต้องการบริบทยาวมาก เช่น การทำงานกับเอกสารขนาดใหญ่หรือ workflow ที่ต้องเก็บบริบทจำนวนมาก แต่ควรใช้ร่วมกับ retrieval grounding, fact-checking หรือ human review โดยเฉพาะงานที่ความผิดพลาดมีต้นทุนสูง ^[30]^[31]^[33]

Kimi K2.6: open-weight multimodal ที่ยังต้องการคะแนนเทียบตรงเพิ่ม

Artificial Analysis ระบุว่า Kimi K2.6 เป็น open weights model ที่ปล่อยในเดือนเมษายน 2026 และได้ Artificial Analysis Intelligence Index 54 ^[35] อีกบทวิเคราะห์ของ Artificial Analysis ระบุว่า Kimi K2.6 รองรับ image และ video input พร้อม text output แบบ native และมี max context length 256k ^[36]

เมื่อเทียบเฉพาะ context window ในตารางเดียวกัน Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ^[33] แต่ในชุดแหล่งข้อมูลที่ใช้ ยังไม่พบคะแนน Kimi K2.6 ที่เทียบตรงครบกับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified หรือ MCP Atlas ^[2]^[7]^[33]^[35]^[36]

ภาพรวมคือ Kimi K2.6 เหมาะจะอยู่ใน shortlist สำหรับผู้ที่ต้องการ open-weight multimodal model แต่ยังไม่ควรสรุปว่าเหนือกว่าหรือด้อยกว่า GPT-5.5, Claude Opus 4.7 หรือ DeepSeek V4 ในหมวดที่ไม่มีคะแนนเทียบตรง ^[35]^[36]

เลือกโมเดลตามงาน

งานที่ต้องทำ	รุ่นที่น่าพิจารณา	เหตุผลจากหลักฐานที่มี
Terminal automation / agentic workflow	GPT-5.5	นำ Claude Opus 4.7 บน Terminal-Bench 2.0 ที่ 82.7% ต่อ 69.4% ^[2]
Software engineering / issue solving	Claude Opus 4.7	นำ GPT-5.5 บน SWE-Bench Pro ที่ 64.3% ต่อ 58.6% ^[2]
Browser และ tool workflow	GPT-5.5 หรือ Claude Opus 4.7 แล้วแต่เครื่องมือ	GPT-5.5 นำบน BrowseComp แต่ Claude Opus 4.7 นำบน MCP Atlas ^[7]
Computer-use workflow	GPT-5.5 นำเล็กน้อย	OSWorld-Verified อยู่ที่ 78.7% สำหรับ GPT-5.5 และ 78.0% สำหรับ Claude Opus 4.7 ^[7]
Long-context ขนาดใหญ่มาก	DeepSeek V4 Pro	Artificial Analysis ระบุ context window 1,000k tokens แต่ควรตรวจคำตอบเพิ่มจากรายงาน hallucination rate 94% ^[31]^[33]
Open-weight multimodal	Kimi K2.6	Artificial Analysis ระบุว่าเป็น open weights model และรองรับ image/video input พร้อม text output แบบ native ^[35]^[36]
งานที่ต้องลด hallucination สูงสุด	ยังสรุปผู้ชนะรวมไม่ได้จากชุดข้อมูลนี้	มีสัญญาณความเสี่ยงชัดใน DeepSeek V4 แต่ยังไม่มีตัวเลข reliability เทียบตรงครบทั้ง 4 รุ่นในแหล่งเดียวกัน ^[31]

ข้อจำกัดของ benchmark ที่ควรรู้ก่อนตัดสินใจ

คะแนนจากคนละแหล่งไม่ควรถูกนำมารวมเป็นอันดับเดียวแบบเด็ดขาด เพราะ Vellum, OpenAI และ Artificial Analysis รายงานคนละชุดทดสอบและคนละบริบทการประเมิน ^[2]^[7]^[31]^[33]^[35] แม้แต่ในหมวด coding งานวิชาการยังชี้ว่า benchmark อย่าง HumanEval มีข้อจำกัด และการประเมินที่ใกล้งานจริงควรพิจารณา benchmark ประเภท issue-solving เช่น SWE-Bench ร่วมด้วย ^[42]

อีกประเด็นสำคัญคือ context window ไม่ใช่ตัวแทนของความถูกต้องเสมอไป DeepSeek V4 Pro มี context window 1,000k tokens ในตารางของ Artificial Analysis แต่แหล่งเดียวกันรายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro ^[31]^[33] ดังนั้นงาน production ควรมีชุดทดสอบภายในขององค์กรเอง โดยเฉพาะเมื่อใช้โมเดลกับข้อมูลเฉพาะทางหรือ workflow ที่มีความเสี่ยงสูง

สรุป

หากต้องเลือกจากหลักฐานที่มี GPT-5.5 เป็นตัวเลือกที่แข็งแรงสำหรับงาน agentic, terminal และ tool workflow หลายหมวด เพราะนำ Claude Opus 4.7 บน Terminal-Bench 2.0, BrowseComp และ OSWorld-Verified ^[2]^[7] Claude Opus 4.7 น่าเลือกเป็นพิเศษสำหรับงาน software engineering ที่อิง SWE-Bench Pro เพราะทำได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% ^[2]

DeepSeek V4 Pro เด่นด้าน long context ด้วยตัวเลข 1,000k tokens แต่ต้องชั่งกับรายงาน hallucination rate 94% ของ Artificial Analysis ^[31]^[33] ส่วน Kimi K2.6 เป็น open-weight multimodal candidate ที่น่าสนใจด้วย context 256k tokens, native image/video input และ Intelligence Index 54 แต่ยังต้องการ benchmark เทียบตรงมากกว่านี้ก่อนสรุปเชิง production อย่างมั่นใจ ^[35]^[36]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ยังไม่มี benchmark เดียวที่เทียบทั้ง 4 รุ่นแบบ apples to apples ได้ครบ: GPT 5.5 นำ Claude Opus 4.7 บน Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% แต่ Claude นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6%.
DeepSeek V4 Pro เด่นที่สุดด้านบริบทยาวในข้อมูลที่มี ด้วย context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ Artificial Analysis รายงาน hallucination rate 94% สำหรับ V4 Pro
Kimi K2.6 เหมาะอยู่ใน shortlist สำหรับ open weight multimodal เพราะรองรับ image/video input และได้ Intelligence Index 54 แต่ยังขาดคะแนนเทียบตรงกับ GPT 5.5 และ Claude ในหลาย benchmark

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และวิธีเลือกโมเดลให้ตรงงาน" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 เหมาะอยู่ใน shortlist สำหรับ open weight multimodal เพราะรองรับ image/video input และได้ Intelligence Index 54 แต่ยังขาดคะแนนเทียบตรงกับ GPT 5.5 และ Claude ในหลาย benchmark

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ27 เม.ย. 2026

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI27 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก ^[11]^[7]^[9]

Key findings

ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน ^[11]
GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ ^[11]
Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ ^[11]
GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ ^[11]
OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro ^[14]
Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 ^[2]
DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น ^[7]
หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน ^[2]^[6]^[11]^[14]^[1]
แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 ^[2]^[14]^[6]
แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด ^[11]^[12]^[15]^[7]
งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving ^[1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบ	ตัวอย่าง benchmark ที่พบ	ใช้วัดอะไร	หมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledge	GPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSR	ความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อน	OpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน ^[14]
Coding / software engineering	SWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWE	ความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์	งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น ^[1]
Agentic / tool use	Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArena	การใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอน	BenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena ^[12]
Vision / multimodal	MMMU Pro, image/video input tests	ความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบ	ข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long context	LongBench v2, MRCRv2, context-window tests	การคงบริบทและดึงข้อมูลจากเอกสารยาว	DeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน ^[9]
Safety / reliability	CoT-Control, Petri, hallucination tests, AA-Omniscience	การควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือ	OpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max ^[14]^[4]^[7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metric	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	ข้อสรุปจากหลักฐาน
Terminal-Bench 2.0	82.7%	69.4%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ ^[11]
SWE-Bench Pro	58.6%	64.3%	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ ^[11]
Expert-SWE internal	73.1%	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ ^[11]
GDPval	84.9%	80.3%	Insufficient evidence	Insufficient evidence	GPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ ^[11]
BenchLM aggregate: Agentic	#2 / 99.5 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	ใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล ^[12]
BenchLM aggregate: Coding	85.6 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน ^[12]
BenchLM aggregate: Reasoning	100.0 จาก 100	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น ^[12]
Context window	Insufficient evidence	Insufficient evidence	1,000k tokens	256k tokens	DeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ ^[9]
AA-Omniscience	Insufficient evidence	Insufficient evidence	-10 สำหรับ V4 Pro Max	Insufficient evidence	DeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน ^[7]
Hallucination rate	Insufficient evidence	Insufficient evidence	94% สำหรับ V4 Pro/Flash	Insufficient evidence	เป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis ^[7]

วิเคราะห์รายโมเดล

GPT-5.5

GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก ^[11]
จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval ^[11]
จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% ^[11]
เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ ^[14]

Claude Opus 4.7

Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ ^[2]
จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ^[11]
Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ ^[11]
Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude ^[4]

DeepSeek V4

เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ ^[6]
DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ ^[9]
Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 ^[7]
ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน ^[7]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro ^[9]
เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน ^[9]
ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% ^[11]
หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% ^[11]
หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% ^[11]
หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน ^[9]
หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน ^[7]
หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก ^[14]^[11]
แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก ^[2]^[11]
แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ ^[6]
แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ ^[9]
งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย ^[1]

Limitations / uncertainty

Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน
คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด
ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7
ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval ^[11]
Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering ^[11]

แหล่งที่มา

[2] Everything You Need to Know About GPT-5.5vellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[7] Introducing GPT-5.5 - OpenAIopenai.com
Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...
[20] System Prompts - Claude API Docsdocs.anthropic.com
Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...
[22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com
The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026
[30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co
Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...
[31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai
Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...
[35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai
Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org
… Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 202611 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และวิธีเลือกโมเดลให้ตรงงาน

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

15K0