studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว7 แหล่งที่มา

Benchmark GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6

Claude Opus 4.7 นำใน GPQA Diamond 94.2%, HLE แบบไม่ใช้ tool 46.9% และ SWE Bench Pro 64.3%; ส่วน GPT 5.5 Pro นำ HLE แบบมี tool 57.2% และ BrowseComp 90.1% [2] GPT 5.5 เด่นที่สุดใน Terminal Bench 2.0 ที่ 82.7% เหมาะกับงาน agent ที่ต้องทำงานผ่าน shell, debug, จัดการไฟล์ และประสานเครื่องมือหลายขั้นตอน [2][5] DeepSeek V4...

17K0
Minh họa so sánh benchmark giữa GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026Benchmark các mô hình AI lớn nên được đọc theo tác vụ: reasoning, tool use, terminal, coding và chi phí.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026. Article summary: Không có mô hình thắng tuyệt đối: Claude Opus 4.7 dẫn GPQA Diamond ở 94.2% và HLE không tool, GPT 5.5 Pro dẫn HLE có tool ở 57.2%, còn GPT 5.5 dẫn Terminal Bench 2.0 ở 82.7%.. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# 2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大?. # 同周发布四大旗舰,差距到底有多大?Kimi K2.6 / Claude Opus 4.7 / GPT-5.5 / DeepSeek V4 深度横评. **2026 年 4 月的第三周,AI" source context "2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大? - 七牛云行业应用 - 博客园" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4h

openai.com

อ่าน benchmark ให้เหมือนแผนที่ ไม่ใช่ตารางแชมป์

ถ้าจะเลือกโมเดล AI ในปี 2026 คำถามที่ใช้ได้จริงไม่ใช่ โมเดลไหนเก่งที่สุด แต่คือ โมเดลไหนเก่งกับงานที่เราจะให้ทำที่สุด ข้อมูลที่มีอยู่ชี้ไปในทิศทางเดียวกันว่าไม่มีผู้ชนะเบ็ดเสร็จ: Claude Opus 4.7 เด่นใน reasoning แบบไม่ใช้เครื่องมือและ SWE-Bench Pro; GPT-5.5 Pro เด่นในงานใช้ tool และ browsing; GPT-5.5 มีสัญญาณแข็งที่สุดบนงาน terminal; DeepSeek V4 น่าจับตาเรื่องต้นทุนต่อประสิทธิภาพแต่ต้องคุมความเสี่ยง hallucination; ส่วน Kimi K2.6 มีคะแนนบางรายการที่ดี แต่ยังไม่มีเมทริกซ์เทียบครบชุดเดียวกับคู่แข่งทั้งหมด [1][2][3][8][9]

ตาราง benchmark หลัก

เครื่องหมาย — หมายถึงแหล่งข้อมูลที่อ้างอิงไม่ได้ให้ตัวเลขเทียบตรงใน benchmark เดียวกัน ไม่ได้แปลว่าคะแนนเป็นศูนย์

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6ผู้นำในข้อมูลชุดนี้
GPQA Diamond93.6%94.2%90.1%— ในตารางตรง; LLM Stats ระบุ GPQA 0.91Claude Opus 4.7 [2][8]
Humanity’s Last Exam, ไม่ใช้ tool41.4%43.1%46.9%37.7%Claude Opus 4.7 [2]
Humanity’s Last Exam, ใช้ tool52.2%57.2%54.7%48.2%GPT-5.5 Pro [2]
Terminal-Bench 2.082.7%69.4%67.9%GPT-5.5 [2]
SWE-Bench Pro / SWE Pro58.6%64.3%55.4%LLM Stats ระบุ 0.59Claude Opus 4.7 [2][3]
BrowseComp84.4%90.1%79.3%83.4%DocsBot ระบุ 83.2%GPT-5.5 Pro ในตาราง VentureBeat [2][9]
MCP Atlas / MCPAtlas Public75.3%79.1%73.6%Claude Opus 4.7 [2]

ภาพรวมจากตารางนี้คือไม่ควรประกาศว่าโมเดลใดชนะทุกด้าน Claude Opus 4.7 นำหลายรายการด้าน reasoning และ software engineering ในข้อมูลเทียบตรง ส่วน GPT-5.5 Pro นำเมื่อโจทย์เปิดให้ใช้เครื่องมือหรือท่องเว็บ และ GPT-5.5 นำใน Terminal-Bench 2.0 ขณะที่ข้อมูลของ Kimi K2.6 มาจากแหล่งแยกอย่าง LLM Stats และ DocsBot จึงควรอ่านเป็นสัญญาณประกอบ ไม่ใช่การจัดอันดับแบบเดียวกันทั้งกระดาน [2][3][8][9]

Reasoning ยาก: Claude Opus 4.7 นำอยู่เล็กน้อยแต่ชัดเจน

ในตารางเปรียบเทียบของ VentureBeat, Claude Opus 4.7 ทำคะแนน GPQA Diamond ได้ 94.2% สูงกว่า GPT-5.5 ที่ 93.6% และ DeepSeek-V4-Pro-Max ที่ 90.1% [2] ช่องว่างระหว่าง Claude กับ GPT-5.5 ไม่ได้ห่างมาก แต่ Claude เป็นตัวนำในแถวนี้ของข้อมูลชุดดังกล่าว [2]

Claude Opus 4.7 ยังนำ Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% เทียบกับ GPT-5.5 Pro ที่ 43.1%, GPT-5.5 ที่ 41.4% และ DeepSeek-V4-Pro-Max ที่ 37.7% [2] ดังนั้นถ้างานหลักคือคำถามความรู้ยาก reasoning เชิงวิทยาศาสตร์ หรือโจทย์ที่ไม่อนุญาตให้เรียก tool ข้อมูลชุดนี้เอนมาทาง Claude Opus 4.7 [2]

สำหรับ Kimi K2.6, LLM Stats ระบุคะแนน GPQA ไว้ที่ 0.91 ขณะที่ Claude Opus 4.7 และ GPT-5.5 อยู่ที่ 0.94 แบบปัดเศษใน leaderboard เดียวกัน [8] แต่ตัวเลขนี้ไม่ใช่ตาราง GPQA Diamond ชุดเดียวกับ VentureBeat จึงควรใช้เป็นข้อมูลประกอบมากกว่าหลักฐานเทียบหัวต่อหัวแบบเด็ดขาด [2][8]

Tool use และ web browsing: GPT-5.5 Pro เด่นที่สุด

เมื่อ benchmark อนุญาตให้ใช้เครื่องมือ อันดับเปลี่ยนทันที บน Humanity’s Last Exam แบบมี tool, GPT-5.5 Pro ได้ 57.2% สูงกว่า Claude Opus 4.7 ที่ 54.7%, GPT-5.5 ที่ 52.2% และ DeepSeek-V4-Pro-Max ที่ 48.2% [2]

BrowseComp ก็เอนไปทาง GPT-5.5 Pro เช่นกันในตารางของ VentureBeat: GPT-5.5 Pro ได้ 90.1%, GPT-5.5 ได้ 84.4%, DeepSeek-V4-Pro-Max ได้ 83.4% และ Claude Opus 4.7 ได้ 79.3% [2] DocsBot ระบุ Kimi K2.6 ที่ 83.2% บน BrowseComp แต่ข้อมูลนี้มาจากหน้าที่เทียบ Kimi K2.6 กับ DeepSeek-V4 Pro แยกต่างหาก ไม่ใช่เมทริกซ์เดียวกับ VentureBeat [9]

ถ้างานของคุณพึ่งพาการค้นเว็บ อ่านหน้าเว็บหลายแหล่ง หรือประสาน tool หลายตัว GPT-5.5 Pro คือชื่อที่โดดเด่นที่สุดในข้อมูลที่อ้างอิงชุดนี้ [2]

Terminal และ agentic CLI: GPT-5.5 ได้เปรียบชัด

Terminal-Bench 2.0 สำคัญกับงานแบบ agent ที่ต้องลงมือในสภาพแวดล้อม shell ไม่ใช่แค่ตอบคำถามเป็นข้อความ benchmark นี้ถูกอธิบายว่าใช้วัดความสามารถในการทำ workflow CLI จริง เช่น จัดการไฟล์ รันสคริปต์ debug และประสานเครื่องมือต่าง ๆ [5]

ในตาราง VentureBeat, GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9% [2] หาก use case คือ agent ที่รันคำสั่ง แก้บั๊กผ่าน terminal อัตโนมัติ หรือทำงานหลายขั้นตอนใน repo นี่คือจุดแข็งที่ชัดที่สุดของ GPT-5.5 ในข้อมูลปัจจุบัน [2][5]

Software engineering: Claude Opus 4.7 นำใน SWE-Bench Pro

SWE-Bench Pro เป็นสัญญาณสำคัญสำหรับงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน LLM Stats อธิบายว่าเป็นเวอร์ชันที่ยากขึ้นของ SWE-Bench ใช้ประเมินงาน software engineering ในโลกจริงที่ต้อง reasoning ต่อเนื่องและแก้ปัญหาหลายขั้นตอน [3]

ในตาราง VentureBeat, Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro / SWE Pro สูงกว่า GPT-5.5 ที่ 58.6% และ DeepSeek-V4-Pro-Max ที่ 55.4% [2] LLM Stats ก็ระบุ Claude Opus 4.7 ที่ 0.64, GPT-5.5 ที่ 0.59, Kimi K2.6 ที่ 0.59 และ DeepSeek-V4-Pro-Max ที่ 0.55 บน SWE-Bench Pro [3]

แม้สองแหล่งจะนำเสนอคะแนนคนละรูปแบบ แต่สัญญาณหลักตรงกัน: Claude Opus 4.7 นำใน SWE-Bench Pro ส่วน GPT-5.5 กับ Kimi K2.6 อยู่ใกล้กันในตาราง LLM Stats และ DeepSeek-V4-Pro-Max อยู่ต่ำกว่าในตัวเลขที่อ้างอิง [2][3]

DeepSeek V4: น่าสนใจเรื่องต้นทุน แต่ต้องวางการ์ดเรื่อง hallucination

DeepSeek-V4-Pro-Max ไม่ได้นำแถวใดในตารางเปรียบเทียบตรงของ VentureBeat โดยได้ 90.1% บน GPQA Diamond, 37.7% บน Humanity’s Last Exam แบบไม่ใช้ tool, 48.2% แบบมี tool, 67.9% บน Terminal-Bench 2.0, 55.4% บน SWE-Bench Pro, 83.4% บน BrowseComp และ 73.6% บน MCP Atlas [2]

จุดขายของ DeepSeek V4 อยู่ที่ประสิทธิภาพต่อราคา VentureBeat อธิบายว่า DeepSeek-V4 ใกล้ระดับ state-of-the-art ด้วยต้นทุนราว 1/6 เมื่อเทียบกับ Opus 4.7 และ GPT-5.5 [2] แต่อีกด้านหนึ่ง Artificial Analysis ระบุว่า DeepSeek V4 Pro Max ได้ -10 บน AA-Omniscience ดีขึ้น 11 คะแนนจาก V3.2 Reasoning ที่ -21 และระบุว่า V4 Pro กับ V4 Flash มีอัตรา hallucination สูงมากที่ 94% และ 96% ตามลำดับ [1]

ไม่ควรสรุปเกินข้อมูลว่า DeepSeek V4 ต้องเชื่อถือน้อยที่สุดในทุกสถานการณ์ เพราะแหล่งที่อ้างอิงไม่ได้ให้ตัวชี้วัด hallucination แบบเดียวกันสำหรับ GPT-5.5, Claude Opus 4.7 และ Kimi K2.6 [1] ข้อสรุปที่ปลอดภัยกว่าคือ DeepSeek V4 เหมาะแก่การพิจารณาเมื่อต้นทุนเป็นโจทย์ใหญ่ แต่ควรทดสอบ hallucination กับข้อมูลและ workflow จริงของคุณอย่างจริงจัง [1][2]

Kimi K2.6: มีสัญญาณดี แต่ยังจัดอันดับรวมได้ยาก

Kimi K2.6 เป็นโมเดลที่จัดอันดับยากที่สุดในการเทียบครั้งนี้ เพราะข้อมูลไม่ได้อยู่ในเมทริกซ์ benchmark เดียวกันครบชุดกับ GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max [2][3][8][9]

ถึงอย่างนั้น แหล่งอื่นก็ให้สัญญาณที่น่าสนใจ LLM Stats ระบุ Kimi K2.6 ที่ 0.91 บน GPQA และ 0.59 บน SWE-Bench Pro [3][8] ส่วน DocsBot ระบุ Kimi K2.6 ที่ 96.4% บน AIME 2026 ใน thinking mode, 27.9% บน APEX Agents และ 83.2% บน BrowseComp โดยหน้าเดียวกันระบุ DeepSeek-V4 Pro ที่ 83.4% บน BrowseComp [9]

เพราะคะแนนเหล่านี้มาจากแหล่งและบริบทต่างกัน ข้อสรุปที่เหมาะสมไม่ใช่ว่า Kimi K2.6 ชนะหรือแพ้แบบเบ็ดเสร็จ แต่ควรมองว่าเป็นผู้สมัครที่น่าลอง โดยเฉพาะถ้า benchmark ที่ Kimi ทำได้ดีตรงกับงานจริงของคุณ และคุณสามารถรันชุดทดสอบภายในเองได้ [3][8][9]

เลือกโมเดลไหนตามงาน

  • Reasoning เชิงวิทยาศาสตร์หรือความรู้ยากแบบไม่ใช้ tool: เริ่มจาก Claude Opus 4.7 เพราะนำ GPQA Diamond และ Humanity’s Last Exam แบบไม่ใช้ tool ในตารางเทียบตรง [2]
  • งานที่ต้องใช้ tool, web หรือ browsing: ให้ GPT-5.5 Pro เป็นตัวเลือกแรก เพราะนำ Humanity’s Last Exam แบบมี tool และ BrowseComp ในข้อมูลที่อ้างอิง [2]
  • Agent ที่ทำงานผ่าน terminal, workflow CLI หรือแก้บั๊กผ่าน shell: GPT-5.5 มีสัญญาณแข็งที่สุด ด้วย 82.7% บน Terminal-Bench 2.0 [2][5]
  • Software engineering ซับซ้อน: Claude Opus 4.7 นำ SWE-Bench Pro ทั้งในตาราง VentureBeat และ LLM Stats ขณะที่ GPT-5.5 กับ Kimi K2.6 อยู่ที่ 0.59 ในตาราง LLM Stats [2][3]
  • ต้องคุมต้นทุนต่อประสิทธิภาพ: DeepSeek V4 น่าพิจารณา เพราะถูกอธิบายว่าใกล้ state-of-the-art ด้วยต้นทุนประมาณ 1/6 เมื่อเทียบกับ Opus 4.7 และ GPT-5.5 แต่ต้องมีขั้นตอนตรวจ hallucination [1][2]
  • อยากลอง Kimi K2.6: ใช้คะแนน GPQA, SWE-Bench Pro, AIME 2026, APEX Agents และ BrowseComp เป็นสัญญาณแยก ไม่ใช่หลักฐานว่าเป็นอันดับหนึ่งรวมทุกด้าน [3][8][9]

ข้อจำกัดที่ควรจำก่อนตัดสินใจ

ข้อแรก GPT-5.5 Pro มีตัวเลขเพียงบางแถวในตาราง VentureBeat จึงไม่ควรสมมติว่าเวอร์ชัน Pro จะนำหรือแพ้ในทุก benchmark ที่ไม่ได้รายงาน [2]

ข้อสอง ข้อมูลของ Kimi K2.6 ส่วนใหญ่มาจาก LLM Stats และ DocsBot ไม่ใช่ตารางเทียบครบชุดเดียวกับ GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max [2][3][8][9]

ข้อสาม OpenAI มี system card สำหรับ GPT-5.5 ซึ่งระบุว่า CoT-Control มีงานมากกว่า 13,000 งานที่สร้างจาก benchmark อย่าง GPQA, MMLU-Pro, HLE, BFCL และ SWE-Bench Verified [20] ข้อมูลนี้มีประโยชน์ต่อการเข้าใจกรอบการประเมิน GPT-5.5 แต่แหล่งที่อ้างอิงไม่ได้ให้ผล CoT-Control ที่เทียบกันได้สำหรับ Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 จึงไม่ควรใช้เป็นตารางจัดอันดับข้ามโมเดล [20]

สรุปให้สั้นที่สุด: Claude Opus 4.7 เหมาะสุดในข้อมูลนี้สำหรับ reasoning ยากและ SWE-Bench Pro; GPT-5.5 Pro เด่นสุดเมื่อใช้ tool และ browsing; GPT-5.5 แข็งที่สุดในงาน terminal; DeepSeek V4 น่าดูเมื่อต้นทุนสำคัญ; ส่วน Kimi K2.6 มีสัญญาณดีแต่ยังขาดเมทริกซ์เทียบตรงที่ครบถ้วน [1][2][3][8][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Claude Opus 4.7 นำใน GPQA Diamond 94.2%, HLE แบบไม่ใช้ tool 46.9% และ SWE Bench Pro 64.3%; ส่วน GPT 5.5 Pro นำ HLE แบบมี tool 57.2% และ BrowseComp 90.1% [2]
  • GPT 5.5 เด่นที่สุดใน Terminal Bench 2.0 ที่ 82.7% เหมาะกับงาน agent ที่ต้องทำงานผ่าน shell, debug, จัดการไฟล์ และประสานเครื่องมือหลายขั้นตอน [2][5]
  • DeepSeek V4 น่าสนใจด้านต้นทุนต่อประสิทธิภาพ แต่มีสัญญาณต้องระวังเรื่อง hallucination; Kimi K2.6 มีคะแนนบาง benchmark ให้พิจารณา แต่ยังไม่มีตารางเทียบครบชุดเดียวกับคู่แข่งทั้งหมด [1][2][3][8][9]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Benchmark GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6" คืออะไร

Claude Opus 4.7 นำใน GPQA Diamond 94.2%, HLE แบบไม่ใช้ tool 46.9% และ SWE Bench Pro 64.3%; ส่วน GPT 5.5 Pro นำ HLE แบบมี tool 57.2% และ BrowseComp 90.1% [2]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Claude Opus 4.7 นำใน GPQA Diamond 94.2%, HLE แบบไม่ใช้ tool 46.9% และ SWE Bench Pro 64.3%; ส่วน GPT 5.5 Pro นำ HLE แบบมี tool 57.2% และ BrowseComp 90.1% [2] GPT 5.5 เด่นที่สุดใน Terminal Bench 2.0 ที่ 82.7% เหมาะกับงาน agent ที่ต้องทำงานผ่าน shell, debug, จัดการไฟล์ และประสานเครื่องมือหลายขั้นตอน [2][5]

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 น่าสนใจด้านต้นทุนต่อประสิทธิภาพ แต่มีสัญญาณต้องระวังเรื่อง hallucination; Kimi K2.6 มีคะแนนบาง benchmark ให้พิจารณา แต่ยังไม่มีตารางเทียบครบชุดเดียวกับคู่แข่งทั้งหมด [1][2][3][8][9]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

Nghiên cứu benchmarks của GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 và so sánh chúng một cách toàn diện nhất

Studio Global AI28 แหล่งที่มา

อ้างถึงคำตอบ

Dựa trên bộ bằng chứng được cung cấp, không thể so sánh đầy đủ cả 5 mô hình vì không có dữ liệu benchmark cho Kimi K2.6; Insufficient evidence. Trong các benchmark có số liệu, Claude Opus 4.7 đứng đầu GPQA Diamond và Humanity’s Last Exam không dùng công cụ, GPT-5.5 Pro đứng đầu Humanity’s Last Exam có công cụ, còn GPT-5.5 đứng đầu Terminal-Bench 2.0 [3]. DeepSeek-V4-Pro-Max ở gần nhóm đầu nhưng thua mô hình dẫn đầu trong các benchmark được trích dẫn, dù được mô tả là có chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

Key findings

  • Claude Opus 4.7 mạnh nhất trong nhóm benchmark tri thức/lý luận khó không dùng công cụ: Claude Opus 4.7 đạt 94.2% trên GPQA Diamond, cao hơn GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3]. Claude Opus 4.7 cũng đạt 46.9% trên Humanity’s Last Exam không dùng công cụ, cao hơn GPT-5.5 Pro 43.1%, GPT-5.5 41.4% và DeepSeek-V4-Pro-Max 37.7% [3].

  • GPT-5.5 Pro dẫn đầu khi có công cụ: Trên Humanity’s Last Exam có công cụ, GPT-5.5 Pro đạt 57.2%, cao hơn Claude Opus 4.7 ở 54.7%, GPT-5.5 ở 52.2% và DeepSeek-V4-Pro-Max ở 48.2% [3].

  • GPT-5.5 nổi bật nhất ở tác vụ terminal/agentic CLI: Trên Terminal-Bench 2.0, GPT-5.5 đạt 82.7%, cao hơn Claude Opus 4.7 ở 69.4% và DeepSeek-V4-Pro-Max ở 67.9% [3]. Terminal-Bench 2.0 được mô tả là benchmark đo khả năng hoàn thành workflow CLI thực tế gồm thao tác file, chạy script, debug và phối hợp công cụ [7].

  • DeepSeek-V4-Pro-Max có vị trí tốt về hiệu năng/chi phí nhưng chưa dẫn benchmark chính trong evidence: Nguồn [3] mô tả DeepSeek-V4 là “near state-of-the-art” với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5, nhưng trong các số liệu benchmark được trích, DeepSeek-V4-Pro-Max không đứng đầu GPQA Diamond, Humanity’s Last Exam hoặc Terminal-Bench 2.0 [3].

  • DeepSeek V4 có tín hiệu rủi ro hallucination: Nguồn [2] cho biết DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2 Reasoning ở -21, chủ yếu nhờ độ chính xác cao hơn [2]. Cùng nguồn nói V4 Pro và V4 Flash có tỷ lệ hallucination “rất cao”, nhưng phần evidence bị cắt ở con số “94…”, nên không thể xác nhận chính xác tỷ lệ phần trăm [2].

  • Kimi K2.6 không thể đánh giá từ bộ evidence này: Không có nguồn nào trong evidence cung cấp điểm benchmark, giá, độ trễ, coding score, reasoning score hoặc hallucination score cho Kimi K2.6; Insufficient evidence.

Bảng so sánh benchmark có số liệu

Benchmark / năng lựcGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Mô hình dẫn đầu trong evidence
GPQA Diamond93.6%Không có số liệu94.2%90.1%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, không dùng công cụ41.4%43.1%46.9%37.7%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, có công cụ52.2%57.2%54.7%48.2%Insufficient evidenceGPT-5.5 Pro [3]
Terminal-Bench 2.082.7%Không có số liệu69.4%67.9%Insufficient evidenceGPT-5.5 [3]
AA-OmniscienceKhông có số liệuKhông có số liệuKhông có số liệu-10Insufficient evidenceKhông đủ dữ liệu đối chiếu giữa 5 mô hình [2]
SWE-Bench ProKhông đủ số liệuKhông đủ số liệuCó mốc 0.64 trong snippetSnippet hiển thị “#11 of 11” nhưng không có điểm đầy đủInsufficient evidenceKhông đủ dữ liệu lập ranking đầy đủ [4]

So sánh theo từng mục đích sử dụng

  • Nếu ưu tiên lý luận khoa học/tri thức khó: Claude Opus 4.7 có lợi thế nhẹ trên GPQA Diamond với 94.2%, so với GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3].

  • Nếu ưu tiên bài kiểm tra tổng hợp cực khó không dùng tool: Claude Opus 4.7 dẫn Humanity’s Last Exam không dùng công cụ với 46.9%, cao hơn GPT-5.5 Pro 43.1% và GPT-5.5 41.4% [3].

  • Nếu ưu tiên bài toán có tool: GPT-5.5 Pro là lựa chọn mạnh nhất trong evidence vì đạt 57.2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54.7% [3].

  • Nếu ưu tiên workflow terminal, automation và tác vụ agentic CLI: GPT-5.5 vượt rõ rệt với 82.7% trên Terminal-Bench 2.0, trong khi Claude Opus 4.7 đạt 69.4% và DeepSeek-V4-Pro-Max đạt 67.9% [3].

  • Nếu ưu tiên chi phí/hiệu năng: DeepSeek-V4 đáng chú ý vì được mô tả là đạt mức gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3]. Tuy nhiên, evidence không cung cấp bảng giá chi tiết hoặc giá token, nên không thể kiểm chứng sâu hơn về tổng chi phí sử dụng thực tế.

  • Nếu ưu tiên độ tin cậy và giảm hallucination: Evidence chỉ có dữ liệu hallucination cho DeepSeek V4, trong đó nguồn [2] nói hallucination vẫn rất cao dù AA-Omniscience cải thiện [2]. Không có dữ liệu hallucination tương đương cho GPT-5.5, Claude Opus 4.7 hoặc Kimi K2.6 trong evidence, nên không thể kết luận mô hình nào đáng tin cậy nhất về mặt này.

Evidence notes

  • Nguồn chính cho bảng so sánh số liệu giữa GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max là [3]. Các kết luận về mô hình đứng đầu từng benchmark trong bảng đều dựa trên các số liệu được trích trong [3].

  • GPT-5.5 có tài liệu hệ thống riêng về đánh giá an toàn/điều khiển chuỗi suy luận: system card nói GPT-5.5 được đo bằng CoT-Control, một bộ đánh giá hơn 13,000 tác vụ xây dựng từ các benchmark như GPQA và MMLU-Pro [1]. Tuy nhiên, evidence không cung cấp kết quả CoT-Control tương ứng cho Claude Opus 4.7, DeepSeek V4 hoặc Kimi K2.6, nên không thể dùng CoT-Control để so sánh ngang hàng [1].

  • Nguồn [6] cũng lặp lại rằng GPT-5.5 được đánh giá controllability bằng CoT-Control với hơn 13,000 tác vụ từ các benchmark đã có như GPQA và MMLU-Pro [6]. Đây là bằng chứng hữu ích về phạm vi đánh giá GPT-5.5, nhưng không đủ để lập ranking giữa 5 mô hình [6].

  • Nguồn [4] có nhắc đến SWE-Bench Pro cho DeepSeek-V4-Pro-Max và hiển thị Claude Opus 4.7 ở mức 0.64 trong snippet, nhưng phần evidence không đủ đầy đủ để so sánh SWE-Bench Pro giữa tất cả mô hình [4].

Limitations / uncertainty

  • Thiếu hoàn toàn dữ liệu Kimi K2.6: Không có benchmark nào cho Kimi K2.6 trong evidence, nên mọi xếp hạng có Kimi đều là Insufficient evidence.

  • Thiếu nguồn chính thức cho Claude Opus 4.7 và DeepSeek V4 trong bảng chính: Các số liệu so sánh trực tiếp chủ yếu đến từ nguồn [3], không phải model card chính thức của từng nhà cung cấp trong evidence [3].

  • Thiếu nhiều benchmark quan trọng: Evidence không cung cấp số liệu đầy đủ cho MMLU-Pro, AIME, LiveCodeBench, SWE-Bench Verified, MMMU, latency, context window, throughput hoặc giá token cho cả 5 mô hình.

  • Không thể kết luận “mô hình tốt nhất toàn diện” một cách tuyệt đối: Với evidence hiện có, chỉ có thể nói Claude Opus 4.7 dẫn một số benchmark reasoning không dùng tool, GPT-5.5/GPT-5.5 Pro dẫn các benchmark tool/terminal được trích, còn DeepSeek-V4-Pro-Max có lợi thế được mô tả về chi phí nhưng có cảnh báo hallucination [2][3].

Summary

  • Tốt nhất về GPQA Diamond: Claude Opus 4.7, 94.2% [3].

  • Tốt nhất về Humanity’s Last Exam không tool: Claude Opus 4.7, 46.9% [3].

  • Tốt nhất về Humanity’s Last Exam có tool: GPT-5.5 Pro, 57.2% [3].

  • Tốt nhất về Terminal-Bench 2.0: GPT-5.5, 82.7% [3].

  • Đáng chú ý về chi phí/hiệu năng: DeepSeek-V4, được mô tả là gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

  • Không thể đánh giá: Kimi K2.6, vì không có dữ liệu benchmark trong evidence; Insufficient evidence.

แหล่งที่มา

  • [1] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [2] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [3] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com

    SWE-Bench ProView → 11 of 11 Image 35: LLM Stats Logo SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving. More 1Image...

  • [5] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Terminal-Bench 2.0 measures the ability to complete real CLI workflows: multi-step tasks involving file manipulation, script execution, debugging, and tool coordination. GPT-5.5's 82.7% score is the highest ever recorded, though the margin over Claude Mytho...

  • [8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [9] Kimi K2.6 vs DeepSeek-V4 Pro - Detailed Performance & Feature Comparisondocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [20] [PDF] GPT-5.5 System Card - Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...