รายงานเผยแพร่แล้ว29 เม.ย. 2026Last edited 6 พ.ค. 20265 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: benchmark สาธารณะบอกอะไรได้บ้าง

จุดตัดที่เทียบกันได้ชัดที่สุดในข้อมูลสาธารณะชุดนี้คือ Terminal Bench 2.0: GPT 5.5 ได้ 82.7% สูงสุด แต่ยังไม่ใช่หลักฐานสำหรับอันดับรวมทุกงาน [29][30][6] ตารางของ OpenAI ชี้ว่า GPT 5.5 สูงกว่า Claude Opus 4.7 ในรายการที่เผยแพร่ ส่วนตารางของ DeepSeek ชี้ว่า DS V4 Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住AI 生成插图：多模型基准测试对比场景。
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住. Article summary: 最稳妥的读法是：目前四者能较清楚横向对齐的是 Terminal Bench 2.0，GPT 5.5 以 82.7% 领先；但公开分数来自不同厂商表，不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,
openai.com

คะแนน benchmark ของโมเดล AI ช่วยให้เราตัดตัวเลือกได้เร็วขึ้น แต่ไม่ควรอ่านเหมือนตารางคะแนนฟุตบอลที่ทุกทีมแข่งสนามเดียวกัน กติกาเดียวกันเสมอไป สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แหล่งข้อมูลที่อ้างได้ในชุดนี้มาจากหน้าประกาศและ system card ของ OpenAI, เอกสาร API ของ Anthropic และ model card ของ DeepSeek V4-Pro ไม่ใช่การทดสอบสี่ฝ่ายครบชุดจากบุคคลที่สาม ภายใต้เวอร์ชันและการตั้งค่าเดียวกันทั้งหมด ^[29]^[27]^[13]^[6]

ตั้งชื่อรุ่นให้ตรงกันก่อน

ในบทความนี้ DeepSeek V4 หมายถึง DS-V4-Pro Max และ Kimi K2.6 หมายถึง K2.6 Thinking เพราะเป็นชื่อคอลัมน์ที่ปรากฏโดยตรงในตารางของ DeepSeek ^[6]

จุดนี้สำคัญมาก: ใน model card ของ DeepSeek คอลัมน์ GPT และ Claude ที่ถูกนำมาเทียบคือ GPT-5.4 xHigh และ Opus-4.6 Max ไม่ใช่ GPT-5.5 และ Claude Opus 4.7 ที่เรากำลังพูดถึงในบทความนี้ ^[6] ดังนั้นจึงเอาตาราง DeepSeek มาใช้ตัดสินแบบครบถ้วนไม่ได้ว่า DS-V4-Pro Max ชนะหรือแพ้ GPT-5.5 และ Claude Opus 4.7 อย่างไร

ส่วนเอกสารสาธารณะของ Claude Opus 4.7 ที่อ้างได้จาก Anthropic ในชุดข้อมูลนี้เน้นฟีเจอร์และวิธีเรียกใช้ API เช่น


task budgets

รุ่น beta มากกว่าจะเป็นตาราง benchmark รวมที่นำไปผสานกับ OpenAI, DeepSeek และ Kimi ได้ทันที ^[13]

จุดตัดที่เทียบตรงได้ที่สุด: Terminal-Bench 2.0

ในข้อมูลที่อ้างได้ มี benchmark หนึ่งที่ทั้งสี่โมเดลมีตัวเลขให้เทียบกันได้ คือ Terminal-Bench 2.0 ผลเรียงตามคะแนนในตารางสาธารณะเป็นดังนี้

โมเดล	Terminal-Bench 2.0	แหล่งที่มา
GPT-5.5	82.7%	หน้าประกาศ OpenAI และสรุปของ MLQ.ai ^[29]^[30]
Claude Opus 4.7	69.4%	หน้าประกาศ OpenAI ^[29]
DeepSeek V4-Pro Max	67.9%	model card ของ DeepSeek V4-Pro ^[6]
Kimi K2.6 Thinking	66.7%	model card ของ DeepSeek V4-Pro ^[6]

ข้อสรุปที่พูดได้อย่างมั่นคงจึงแคบแต่มีประโยชน์: ใน Terminal-Bench 2.0 รายการเดียว GPT-5.5 นำชัดเจน, Claude Opus 4.7 อยู่ลำดับสอง, ส่วน DeepSeek V4-Pro Max กับ Kimi K2.6 Thinking อยู่ใกล้กัน ^[29]^[30]^[6]

แต่คะแนนชุดนี้ไม่ได้แปลว่า GPT-5.5 จะชนะทุกงานในโลกจริงโดยอัตโนมัติ และไม่สามารถแทนการทดสอบซ้ำภายใต้ชุดประเมินเดียวกัน สิทธิ์ใช้เครื่องมือเดียวกัน ความยาว context เดียวกัน และงบ reasoning เดียวกันได้

GPT-5.5 เทียบ Claude Opus 4.7: อ่านได้จากตารางของ OpenAI

หน้าประกาศของ OpenAI ให้คะแนนเปรียบเทียบ GPT-5.5 กับ Claude Opus 4.7 หลายรายการ และในรายการที่แสดง GPT-5.5 ทำคะแนนสูงกว่า Claude Opus 4.7 ทั้งหมด ^[29]

Benchmark ในตาราง OpenAI	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

การอ่านที่ปลอดภัยคือ: ใน benchmark ที่ OpenAI นำมาแสดง GPT-5.5 สูงกว่า Claude Opus 4.7 ^[29] นอกจากนี้ system card ของ OpenAI ยังวางตำแหน่ง GPT-5.5 เป็นโมเดลสำหรับงานจริงที่ซับซ้อน เช่น เขียนโค้ด ค้นคว้าออนไลน์ วิเคราะห์ข้อมูล สร้างเอกสารและสเปรดชีต รวมถึงทำงานข้ามเครื่องมือ ^[27]

อย่างไรก็ดี นี่ยังเป็นตารางเปรียบเทียบจากหน้าประกาศของ OpenAI ไม่ใช่การทดสอบสี่โมเดลจากบุคคลที่สามด้วย harness เดียวกัน ^[29]

DeepSeek V4-Pro Max เทียบ Kimi K2.6 Thinking: อ่านได้จากตารางของ DeepSeek

model card ของ DeepSeek V4-Pro มีตารางเทียบ DS-V4-Pro Max กับ K2.6 Thinking หลายรายการ ^[6] ภายในตารางนี้ DeepSeek V4-Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายหัวข้อ แต่ Kimi ก็มีรายการที่นำชัดเจนเช่นกัน ^[6]

Benchmark ใน model card ของ DeepSeek	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	ผู้นำในตาราง
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

ดังนั้นข้อสรุปที่ควรใช้คือ: ในรายการส่วนใหญ่ที่ DeepSeek แสดง DS-V4-Pro Max สูงกว่า K2.6 Thinking แต่ Kimi K2.6 Thinking นำใน GPQA Diamond และ SWE Pro ^[6] สำหรับรายการที่ส่วนต่างไม่มาก เช่น MMLU-Pro และ Terminal-Bench 2.0 ไม่ควรตัดสินจากทิศทางนำเพียงอย่างเดียว ควรดูประเภทงานและความคลาดเคลื่อนของการทดสอบด้วย

ทำไมยังจัดอันดับรวมสี่โมเดลไม่ได้

กับ benchmark ของโมเดล AI ข้อผิดพลาดที่เจอบ่อยคือหยิบตารางจากหลายค่ายมารวมกัน แล้วประกาศผู้ชนะรวมทันที ข้อมูลสาธารณะชุดนี้ยังไม่รองรับวิธีนั้น ด้วยเหตุผลหลักสามข้อ

เวอร์ชันไม่ตรงกัน — ตาราง OpenAI เทียบ GPT-5.5 กับ Claude Opus 4.7 แต่ตาราง DeepSeek ใช้คอลัมน์ GPT-5.4 xHigh และ Opus-4.6 Max ^[29]^[6]
แหล่งที่มาไม่เหมือนกัน — ข้อมูลมาจากหน้าประกาศ, system card, เอกสาร API และ model card ของผู้พัฒนา ไม่ใช่การทดสอบรวมจากบุคคลที่สามชุดเดียวกัน ^[29]^[27]^[13]^[6]
ตัวชี้วัดวัดคนละเรื่อง — GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond และ SWE Pro ไม่ได้วัดความสามารถเดียวกันทั้งหมด ถ้าไม่มีน้ำหนักคะแนนที่ชัดเจน การบวกเป็นคะแนนรวมจะกลบความต่างของงานจริง ^[29]^[6]

พูดง่าย ๆ คือ benchmark สาธารณะเหมาะกับการคัดกรองรอบแรก มากกว่าจะใช้เป็นเหตุผลสุดท้ายในการซื้อ เลือกสถาปัตยกรรม หรือย้ายระบบทั้งหมด

ถ้าต้องเลือกใช้จริง ควรอ่านคะแนนอย่างไร

วิธีที่ใช้ได้จริงกว่า คือแยกการตัดสินใจเป็นสามชั้น

ชั้น benchmark ร่วม: ตอนนี้จุดตัดที่ชัดที่สุดของทั้งสี่ชื่อคือ Terminal-Bench 2.0 และในรายการนี้ GPT-5.5 นำ ^[29]^[30]^[6]
ชั้นการเทียบภายในตารางของแต่ละค่าย: ตาราง OpenAI รองรับข้อสรุปว่า GPT-5.5 สูงกว่า Claude Opus 4.7 ในรายการที่แสดง ส่วน model card ของ DeepSeek รองรับข้อสรุปว่า DS-V4-Pro Max สูงกว่า K2.6 Thinking ในหลายรายการ ^[29]^[6]
ชั้นทดสอบกับงานของคุณเอง: แยกงานเป็น coding, agent, reasoning, retrieval, tool use, latency และ cost แล้วทดสอบซ้ำด้วย prompt เดียวกัน context เดียวกัน สิทธิ์เครื่องมือเดียวกัน และเกณฑ์ให้คะแนนเดียวกัน

ถ้าผลิตภัณฑ์ของคุณต้องพึ่งรอบการทำงานแบบ agent ที่ยาว ฟีเจอร์


task budgets

ของ Claude Opus 4.7 ควรถูกทดสอบแยกต่างหาก เอกสาร Anthropic ระบุว่าฟีเจอร์นี้ให้เป้าหมายจำนวน token แบบคร่าว ๆ สำหรับ agentic loop ทั้งรอบ รวม thinking, tool calls, tool results และ final output พร้อมให้โมเดลเห็นตัวนับถอยหลังของงบที่เหลือเพื่อจัดลำดับงานและจบงานให้เรียบร้อย ^[13]

ถ้างานของคุณใกล้กับการเขียนโค้ดซับซ้อน การค้นคว้าออนไลน์ การสร้างเอกสารหรือสเปรดชีต และการทำงานข้ามเครื่องมือ คำอธิบายใน system card ของ GPT-5.5 เชื่อมกับงานกลุ่มนี้โดยตรงกว่า ^[27] แต่ต่อให้โมเดลหนึ่งนำในตารางสาธารณะ ก็ยังควรนำไปทดสอบกับ codebase, toolchain, ขอบเขต permission และกติกาการกู้คืนเมื่อเกิดความล้มเหลวของระบบคุณเอง

สรุปแบบที่พูดได้ปลอดภัยที่สุด

Terminal-Bench 2.0 รายการเดียว: GPT-5.5 อันดับหนึ่ง, Claude Opus 4.7 อันดับสอง, DeepSeek V4-Pro Max อันดับสาม และ Kimi K2.6 Thinking อันดับสี่ ^[29]^[30]^[6]
ภายในตาราง OpenAI: GPT-5.5 สูงกว่า Claude Opus 4.7 ใน benchmark ที่ OpenAI แสดง ^[29]
ภายในตาราง DeepSeek: DS-V4-Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro ^[6]
อันดับรวมสี่โมเดลแบบเด็ดขาด: หลักฐานยังไม่พอ เพราะยังไม่มีการทดสอบครบสี่ฝ่ายภายใต้บุคคลที่สาม เวอร์ชันเดียวกัน และเงื่อนไขเดียวกันทั้งหมด ^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

จุดตัดที่เทียบกันได้ชัดที่สุดในข้อมูลสาธารณะชุดนี้คือ Terminal Bench 2.0: GPT 5.5 ได้ 82.7% สูงสุด แต่ยังไม่ใช่หลักฐานสำหรับอันดับรวมทุกงาน [29][30][6]
ตารางของ OpenAI ชี้ว่า GPT 5.5 สูงกว่า Claude Opus 4.7 ในรายการที่เผยแพร่ ส่วนตารางของ DeepSeek ชี้ว่า DS V4 Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro [29][6]
การเลือกใช้จริงควรแยกดู benchmark ร่วม, การเทียบภายในตารางของแต่ละค่าย และการทดสอบซ้ำกับงานจริงภายใต้ prompt, context, tool permission, latency และ cost เดียวกัน

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: benchmark สาธารณะบอกอะไรได้บ้าง" คืออะไร

จุดตัดที่เทียบกันได้ชัดที่สุดในข้อมูลสาธารณะชุดนี้คือ Terminal Bench 2.0: GPT 5.5 ได้ 82.7% สูงสุด แต่ยังไม่ใช่หลักฐานสำหรับอันดับรวมทุกงาน [29][30][6]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

การเลือกใช้จริงควรแยกดู benchmark ร่วม, การเทียบภายในตารางของแต่ละค่าย และการทดสอบซ้ำกับงานจริงภายใต้ prompt, context, tool permission, latency และ cost เดียวกัน

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ25 เม.ย. 2026

คำถามวิจัย

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI25 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

可以，但要分开看。就我目前核实到的公开数字，四家里能直接横向对齐的共享基准其实很少；最清楚的一项是 Terminal-Bench 2.0：GPT-5.5 为 82.7%，Claude Opus 4.7 为 69.4%，DeepSeek V4-Pro Max 为 67.9%，Kimi K2.6 Thinking 为 66.7%。^[5]^[12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表，所以可以做“有保留的比较”，但不足以稳妥给出一个统一总排名。^[5]^[12]

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

如果你愿意，我下一步可以直接帮你整理成一张更实用的对比表，按 Coding / Agent / Reasoning / Vision 四个维度分开排，并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

แหล่งที่มา

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว29 เม.ย. 2026Last edited 6 พ.ค. 20265 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: benchmark สาธารณะบอกอะไรได้บ้าง

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

ตั้งชื่อรุ่นให้ตรงกันก่อน


task budgets

รุ่น beta มากกว่าจะเป็นตาราง benchmark รวมที่นำไปผสานกับ OpenAI, DeepSeek และ Kimi ได้ทันที ^[13]

จุดตัดที่เทียบตรงได้ที่สุด: Terminal-Bench 2.0

โมเดล	Terminal-Bench 2.0	แหล่งที่มา
GPT-5.5	82.7%	หน้าประกาศ OpenAI และสรุปของ MLQ.ai ^[29]^[30]
Claude Opus 4.7	69.4%	หน้าประกาศ OpenAI ^[29]
DeepSeek V4-Pro Max	67.9%	model card ของ DeepSeek V4-Pro ^[6]
Kimi K2.6 Thinking	66.7%	model card ของ DeepSeek V4-Pro ^[6]

GPT-5.5 เทียบ Claude Opus 4.7: อ่านได้จากตารางของ OpenAI

Benchmark ในตาราง OpenAI	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

DeepSeek V4-Pro Max เทียบ Kimi K2.6 Thinking: อ่านได้จากตารางของ DeepSeek

Benchmark ใน model card ของ DeepSeek	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	ผู้นำในตาราง
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

ทำไมยังจัดอันดับรวมสี่โมเดลไม่ได้

เวอร์ชันไม่ตรงกัน — ตาราง OpenAI เทียบ GPT-5.5 กับ Claude Opus 4.7 แต่ตาราง DeepSeek ใช้คอลัมน์ GPT-5.4 xHigh และ Opus-4.6 Max ^[29]^[6]
แหล่งที่มาไม่เหมือนกัน — ข้อมูลมาจากหน้าประกาศ, system card, เอกสาร API และ model card ของผู้พัฒนา ไม่ใช่การทดสอบรวมจากบุคคลที่สามชุดเดียวกัน ^[29]^[27]^[13]^[6]
ตัวชี้วัดวัดคนละเรื่อง — GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond และ SWE Pro ไม่ได้วัดความสามารถเดียวกันทั้งหมด ถ้าไม่มีน้ำหนักคะแนนที่ชัดเจน การบวกเป็นคะแนนรวมจะกลบความต่างของงานจริง ^[29]^[6]

ถ้าต้องเลือกใช้จริง ควรอ่านคะแนนอย่างไร

วิธีที่ใช้ได้จริงกว่า คือแยกการตัดสินใจเป็นสามชั้น

ชั้น benchmark ร่วม: ตอนนี้จุดตัดที่ชัดที่สุดของทั้งสี่ชื่อคือ Terminal-Bench 2.0 และในรายการนี้ GPT-5.5 นำ ^[29]^[30]^[6]
ชั้นการเทียบภายในตารางของแต่ละค่าย: ตาราง OpenAI รองรับข้อสรุปว่า GPT-5.5 สูงกว่า Claude Opus 4.7 ในรายการที่แสดง ส่วน model card ของ DeepSeek รองรับข้อสรุปว่า DS-V4-Pro Max สูงกว่า K2.6 Thinking ในหลายรายการ ^[29]^[6]
ชั้นทดสอบกับงานของคุณเอง: แยกงานเป็น coding, agent, reasoning, retrieval, tool use, latency และ cost แล้วทดสอบซ้ำด้วย prompt เดียวกัน context เดียวกัน สิทธิ์เครื่องมือเดียวกัน และเกณฑ์ให้คะแนนเดียวกัน

ถ้าผลิตภัณฑ์ของคุณต้องพึ่งรอบการทำงานแบบ agent ที่ยาว ฟีเจอร์


task budgets

สรุปแบบที่พูดได้ปลอดภัยที่สุด

Terminal-Bench 2.0 รายการเดียว: GPT-5.5 อันดับหนึ่ง, Claude Opus 4.7 อันดับสอง, DeepSeek V4-Pro Max อันดับสาม และ Kimi K2.6 Thinking อันดับสี่ ^[29]^[30]^[6]
ภายในตาราง OpenAI: GPT-5.5 สูงกว่า Claude Opus 4.7 ใน benchmark ที่ OpenAI แสดง ^[29]
ภายในตาราง DeepSeek: DS-V4-Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro ^[6]
อันดับรวมสี่โมเดลแบบเด็ดขาด: หลักฐานยังไม่พอ เพราะยังไม่มีการทดสอบครบสี่ฝ่ายภายใต้บุคคลที่สาม เวอร์ชันเดียวกัน และเงื่อนไขเดียวกันทั้งหมด ^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

จุดตัดที่เทียบกันได้ชัดที่สุดในข้อมูลสาธารณะชุดนี้คือ Terminal Bench 2.0: GPT 5.5 ได้ 82.7% สูงสุด แต่ยังไม่ใช่หลักฐานสำหรับอันดับรวมทุกงาน [29][30][6]
ตารางของ OpenAI ชี้ว่า GPT 5.5 สูงกว่า Claude Opus 4.7 ในรายการที่เผยแพร่ ส่วนตารางของ DeepSeek ชี้ว่า DS V4 Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro [29][6]
การเลือกใช้จริงควรแยกดู benchmark ร่วม, การเทียบภายในตารางของแต่ละค่าย และการทดสอบซ้ำกับงานจริงภายใต้ prompt, context, tool permission, latency และ cost เดียวกัน

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: benchmark สาธารณะบอกอะไรได้บ้าง" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ25 เม.ย. 2026

คำถามวิจัย

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI25 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

แหล่งที่มา

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว29 เม.ย. 2026Last edited 6 พ.ค. 20265 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: benchmark สาธารณะบอกอะไรได้บ้าง

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

ตั้งชื่อรุ่นให้ตรงกันก่อน


task budgets

รุ่น beta มากกว่าจะเป็นตาราง benchmark รวมที่นำไปผสานกับ OpenAI, DeepSeek และ Kimi ได้ทันที ^[13]

จุดตัดที่เทียบตรงได้ที่สุด: Terminal-Bench 2.0

โมเดล	Terminal-Bench 2.0	แหล่งที่มา
GPT-5.5	82.7%	หน้าประกาศ OpenAI และสรุปของ MLQ.ai ^[29]^[30]
Claude Opus 4.7	69.4%	หน้าประกาศ OpenAI ^[29]
DeepSeek V4-Pro Max	67.9%	model card ของ DeepSeek V4-Pro ^[6]
Kimi K2.6 Thinking	66.7%	model card ของ DeepSeek V4-Pro ^[6]

GPT-5.5 เทียบ Claude Opus 4.7: อ่านได้จากตารางของ OpenAI

Benchmark ในตาราง OpenAI	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

DeepSeek V4-Pro Max เทียบ Kimi K2.6 Thinking: อ่านได้จากตารางของ DeepSeek

Benchmark ใน model card ของ DeepSeek	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	ผู้นำในตาราง
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

ทำไมยังจัดอันดับรวมสี่โมเดลไม่ได้

เวอร์ชันไม่ตรงกัน — ตาราง OpenAI เทียบ GPT-5.5 กับ Claude Opus 4.7 แต่ตาราง DeepSeek ใช้คอลัมน์ GPT-5.4 xHigh และ Opus-4.6 Max ^[29]^[6]
แหล่งที่มาไม่เหมือนกัน — ข้อมูลมาจากหน้าประกาศ, system card, เอกสาร API และ model card ของผู้พัฒนา ไม่ใช่การทดสอบรวมจากบุคคลที่สามชุดเดียวกัน ^[29]^[27]^[13]^[6]
ตัวชี้วัดวัดคนละเรื่อง — GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond และ SWE Pro ไม่ได้วัดความสามารถเดียวกันทั้งหมด ถ้าไม่มีน้ำหนักคะแนนที่ชัดเจน การบวกเป็นคะแนนรวมจะกลบความต่างของงานจริง ^[29]^[6]

ถ้าต้องเลือกใช้จริง ควรอ่านคะแนนอย่างไร

วิธีที่ใช้ได้จริงกว่า คือแยกการตัดสินใจเป็นสามชั้น

ชั้น benchmark ร่วม: ตอนนี้จุดตัดที่ชัดที่สุดของทั้งสี่ชื่อคือ Terminal-Bench 2.0 และในรายการนี้ GPT-5.5 นำ ^[29]^[30]^[6]
ชั้นการเทียบภายในตารางของแต่ละค่าย: ตาราง OpenAI รองรับข้อสรุปว่า GPT-5.5 สูงกว่า Claude Opus 4.7 ในรายการที่แสดง ส่วน model card ของ DeepSeek รองรับข้อสรุปว่า DS-V4-Pro Max สูงกว่า K2.6 Thinking ในหลายรายการ ^[29]^[6]
ชั้นทดสอบกับงานของคุณเอง: แยกงานเป็น coding, agent, reasoning, retrieval, tool use, latency และ cost แล้วทดสอบซ้ำด้วย prompt เดียวกัน context เดียวกัน สิทธิ์เครื่องมือเดียวกัน และเกณฑ์ให้คะแนนเดียวกัน

ถ้าผลิตภัณฑ์ของคุณต้องพึ่งรอบการทำงานแบบ agent ที่ยาว ฟีเจอร์


task budgets

สรุปแบบที่พูดได้ปลอดภัยที่สุด

Terminal-Bench 2.0 รายการเดียว: GPT-5.5 อันดับหนึ่ง, Claude Opus 4.7 อันดับสอง, DeepSeek V4-Pro Max อันดับสาม และ Kimi K2.6 Thinking อันดับสี่ ^[29]^[30]^[6]
ภายในตาราง OpenAI: GPT-5.5 สูงกว่า Claude Opus 4.7 ใน benchmark ที่ OpenAI แสดง ^[29]
ภายในตาราง DeepSeek: DS-V4-Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro ^[6]
อันดับรวมสี่โมเดลแบบเด็ดขาด: หลักฐานยังไม่พอ เพราะยังไม่มีการทดสอบครบสี่ฝ่ายภายใต้บุคคลที่สาม เวอร์ชันเดียวกัน และเงื่อนไขเดียวกันทั้งหมด ^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

จุดตัดที่เทียบกันได้ชัดที่สุดในข้อมูลสาธารณะชุดนี้คือ Terminal Bench 2.0: GPT 5.5 ได้ 82.7% สูงสุด แต่ยังไม่ใช่หลักฐานสำหรับอันดับรวมทุกงาน [29][30][6]
ตารางของ OpenAI ชี้ว่า GPT 5.5 สูงกว่า Claude Opus 4.7 ในรายการที่เผยแพร่ ส่วนตารางของ DeepSeek ชี้ว่า DS V4 Pro Max สูงกว่า Kimi K2.6 Thinking ในหลายรายการ แต่ Kimi นำใน GPQA Diamond และ SWE Pro [29][6]
การเลือกใช้จริงควรแยกดู benchmark ร่วม, การเทียบภายในตารางของแต่ละค่าย และการทดสอบซ้ำกับงานจริงภายใต้ prompt, context, tool permission, latency และ cost เดียวกัน

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6: benchmark สาธารณะบอกอะไรได้บ้าง" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ25 เม.ย. 2026

คำถามวิจัย

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI25 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

แหล่งที่มา

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...