studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว11 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026基准测试与选型建议

目前没有一个公开基准能把四个模型完整地同台比较;GPT 5.5与Claude Opus 4.7有较多直接分数,DeepSeek V4和Kimi K2.6的公开信息更多集中在长上下文、开放权重、多模态和可靠性指标上 [2][7][31][33][35][36]。 在Vellum表格中,GPT 5.5在Terminal Bench 2.0以82.7%领先Claude Opus 4.7的69.4%,但Claude Opus 4.7在SWE Bench Pro以64.3%领先GPT 5.5的58.6% [2]。

16K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

先说结论:把GPT-5.5、Claude Opus 4.7、DeepSeek V4和Kimi K2.6硬排成一个总分榜,反而容易误导。原因很简单:这些模型并没有在所有公开基准上都以同一评测方、同一设置、同一任务集完整同台。更稳妥的读法,是按你的工作负载来选模型。

先看大局:没有可验证的总冠军

在目前可直接比较的公开数据中,GPT-5.5与Claude Opus 4.7的同源分数最多。Vellum的表格显示,GPT-5.5在Terminal-Bench 2.0为82.7%,高于Claude Opus 4.7的69.4%;在GDPval为84.9%,高于Claude Opus 4.7的80.3%。但Claude Opus 4.7在SWE-Bench Pro为64.3%,高于GPT-5.5的58.6%;在GPQA Diamond为94.2%,也略高于GPT-5.5的93.6% [2]

到了computer use和tool use场景,OpenAI报告称GPT-5.5在OSWorld-Verified为78.7%,略高于Claude Opus 4.7的78.0%;在BrowseComp为84.4%,高于Claude Opus 4.7的79.3%。但在MCP Atlas上,GPT-5.5为75.3%,低于Claude Opus 4.7的79.1% [7]

DeepSeek V4与Kimi K2.6的情况不同:现有公开资料更能说明它们在长上下文、开放权重、多模态或可靠性方面的特征,但并没有覆盖与GPT-5.5、Claude Opus 4.7完全相同的一整套基准。因此,没有分数的地方不能解读为模型更弱,只能说明本文使用的来源中没有找到可直接比较的同台结果 [31][33][35][36]

可直接读取的分数与指标

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6怎么读
Terminal-Bench 2.082.7%69.4%未找到同源直评分数未找到同源直评分数GPT-5.5在Vellum表格中领先Claude Opus 4.7 [2]
SWE-Bench Pro58.6%64.3%未找到同源直评分数未找到同源直评分数Claude Opus 4.7在软件工程任务上领先GPT-5.5 [2]
GDPval84.9%80.3%未找到同源直评分数未找到同源直评分数GPT-5.5在该组专业任务指标中领先 [2]
OSWorld-Verified78.7%78.0%未找到同源直评分数未找到同源直评分数GPT-5.5在OpenAI表格中小幅领先 [7]
BrowseComp84.4%79.3%未找到同源直评分数未找到同源直评分数GPT-5.5在该工具使用指标中领先 [7]
MCP Atlas75.3%79.1%未找到同源直评分数未找到同源直评分数Claude Opus 4.7在OpenAI表格中领先 [7]
GPQA Diamond93.6%94.2%未找到同源直评分数未找到同源直评分数Claude Opus 4.7在Vellum表格中略高 [2]
FrontierMath T1–351.7%43.8%未找到同源直评分数未找到同源直评分数GPT-5.5在Vellum表格中领先 [2]
Context window本文使用的Artificial Analysis对比表未列出本文使用的Artificial Analysis对比表未列出DeepSeek V4 Pro:1,000k tokens256k tokensDeepSeek V4 Pro的上下文窗口大于Kimi K2.6 [33]
AA-Omniscience / hallucination未找到同源直评分数未找到同源直评分数V4 Pro Max为-10;V4 Pro hallucination rate为94%未找到同源直评分数这是DeepSeek V4需要重点做事实核验的信号 [31]
Artificial Analysis Intelligence Index本文使用来源未列出本文使用来源未列出本文使用来源未列出54这是Kimi K2.6在Artificial Analysis体系内的指标,不应与Vellum或OpenAI榜单混成一个总榜 [35]

这里的未找到同源直评分数,不等于模型不行;它只表示在本文引用的公开资料里,没有看到同一评测方、同一benchmark下的可比数字。

GPT-5.5:更像终端、工具调用和代理工作流的强选项

在这组资料中,GPT-5.5是与Claude Opus 4.7可直接对比项目最多的模型之一。它在Terminal-Bench 2.0、GDPval、FrontierMath T1–3、OSWorld-Verified和BrowseComp等指标上都有公开分数可读 [2][7]

如果你的任务偏向终端自动化、跨步骤代理工作流或工具调用,GPT-5.5的信号比较强:它在Terminal-Bench 2.0为82.7%,高于Claude Opus 4.7的69.4%;在BrowseComp为84.4%,高于Claude Opus 4.7的79.3%;在OSWorld-Verified为78.7%,也略高于Claude Opus 4.7的78.0% [2][7]

但GPT-5.5不是所有场景的绝对赢家。Claude Opus 4.7在SWE-Bench Pro、MCP Atlas和GPQA Diamond上领先GPT-5.5 [2][7]。所以,如果你主要做真实代码库中的issue解决,不能只凭Terminal-Bench或BrowseComp下结论。

从安全与行为控制角度看,OpenAI的System Card提到,GPT-5.5使用CoT-Control进行可控性评估;该评估包含超过13,000个任务,任务来自GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified等既有基准 [4]。这有助于理解模型行为控制的评估框架,但不应直接等同于性能benchmark分数。

Claude Opus 4.7:最明确的亮点在软件工程

Anthropic的Claude API文档列出了Claude Opus 4.7,并标注日期为2026年4月16日 [20]。从目前能与GPT-5.5直接对比的分数看,它最突出的信号是SWE-Bench Pro:Claude Opus 4.7为64.3%,高于GPT-5.5的58.6% [2]

这意味着,如果你的重点是软件工程中的issue solving、修复真实仓库问题、理解复杂代码上下文,Claude Opus 4.7应该进入优先测试名单。它还在MCP Atlas中以79.1%领先GPT-5.5的75.3% [7]

不过,Claude Opus 4.7也不是全面领先。在OpenAI表格中,GPT-5.5在OSWorld-Verified和BrowseComp上领先;在Vellum表格中,GPT-5.5在Terminal-Bench 2.0、GDPval和FrontierMath T1–3上领先 [2][7]

安全研究方面,Anthropic在Petri 2.0中报告称,两类干预方法结合后,使Claude models的eval-awareness出现47.3%的median relative drop [22]。这个数字更适合用于理解Claude系列模型的行为与安全研究,不应被当作Claude Opus 4.7的性能benchmark分数。

DeepSeek V4:百万级上下文很有吸引力,但不能忽视幻觉风险

DeepSeek-V4技术报告称,V4系列保留了DeepSeek-V3中的DeepSeekMoE框架和Multi-Token Prediction策略,并引入混合注意力机制,以提升长上下文效率 [30]。Artificial Analysis的模型对比表显示,DeepSeek V4 Pro的context window为1,000k tokens,而Kimi K2.6为256k tokens [33]

这让DeepSeek V4 Pro很适合被放入超长文档、长链路检索、大规模资料归纳等场景的候选名单。对于需要一次读入大量上下文的任务,它的规格优势很清楚 [30][33]

但可靠性是必须单独评估的点。Artificial Analysis报告称,DeepSeek V4 Pro Max在AA-Omniscience上得分为-10,比DeepSeek V3.2 Reasoning的-21有所改善;同一报告还指出,DeepSeek V4 Pro的hallucination rate为94%,DeepSeek V4 Flash为96% [31]

因此,如果把DeepSeek V4 Pro用于生产环境,尤其是法律、金融、医疗、科研、企业知识库等错误成本较高的场景,建议配合检索增强、引用校验、规则校验或人工复核。上下文窗口大,并不自动等于答案更可靠 [31][33]

Kimi K2.6:开放权重多模态候选,但仍需要更多同台分数

Artificial Analysis将Kimi K2.6标注为2026年4月发布的开放权重模型,并给出Artificial Analysis Intelligence Index 54 [35]。另一篇Artificial Analysis文章称,Kimi K2.6原生支持image和video输入,并输出文本;其最大上下文长度保持在256k [36]

如果你的需求是开放权重、多模态输入、可在自有技术栈中进一步评估与部署,Kimi K2.6值得进入shortlist。但从本文使用的资料看,Kimi K2.6尚缺少与GPT-5.5、Claude Opus 4.7在Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified、MCP Atlas等指标上的完整同源对比 [2][7][35][36]

换句话说,Kimi K2.6的定位很清楚:开放权重、多模态、256k上下文。但在没有更多同台benchmark之前,不宜断言它在软件工程、终端代理或工具调用上一定强于或弱于另外三款模型 [35][36]

按任务选模型:更实用的决策表

你的任务优先考虑依据
Terminal automation / agentic workflowGPT-5.5Terminal-Bench 2.0为82.7%,高于Claude Opus 4.7的69.4% [2]
Software engineering / issue solvingClaude Opus 4.7SWE-Bench Pro为64.3%,高于GPT-5.5的58.6% [2]
浏览器与工具链工作流GPT-5.5或Claude Opus 4.7,取决于具体工具GPT-5.5在BrowseComp领先,Claude Opus 4.7在MCP Atlas领先 [7]
Computer-use workflowGPT-5.5小幅领先OSWorld-Verified中GPT-5.5为78.7%,Claude Opus 4.7为78.0% [7]
极长上下文、超大文档DeepSeek V4 ProArtificial Analysis列出1,000k tokens上下文窗口,但也报告V4 Pro hallucination rate为94%,需要额外核验 [31][33]
开放权重多模态Kimi K2.6Artificial Analysis称其为开放权重模型,并原生支持image/video输入与文本输出 [35][36]
需要尽量降低hallucination不能从本文资料中确定总冠军DeepSeek V4有明确风险信号,但四个模型缺少同一来源下完整可靠性对比 [31]

读benchmark前,先记住三条限制

第一,不同评测方的分数不能随便相加。Vellum、OpenAI和Artificial Analysis使用的任务集、评测环境、工具权限、推理模式和计分方式可能不同,因此更适合做同源比较,而不是拼成一个单一总榜 [2][7][31][33][35]

第二,coding benchmark本身也有局限。相关学术研究指出,HumanEval这类传统基准难以充分覆盖真实软件工程问题;更接近实际工作的评估,需要结合SWE-Bench这类issue-solving benchmark来看 [42]

第三,context window不是准确率。DeepSeek V4 Pro在Artificial Analysis对比表中有1,000k tokens的上下文窗口,但同一评测方也报告其hallucination rate为94% [31][33]。如果是生产系统,尤其是企业内部数据、专业知识库或高风险流程,最好建立自己的回归测试集和人工抽检流程。

最后的选型建议

如果你要做终端自动化、复杂工具调用或agentic workflow,GPT-5.5是目前证据较强的选择,因为它在Terminal-Bench 2.0、BrowseComp和OSWorld-Verified上相对Claude Opus 4.7表现更好 [2][7]

如果你的重点是真实软件工程任务,特别是仓库issue解决、代码修复和工程级上下文理解,Claude Opus 4.7更值得优先测试,因为它在SWE-Bench Pro上以64.3%领先GPT-5.5的58.6% [2]

如果你需要处理非常长的上下文,DeepSeek V4 Pro的1,000k tokens窗口很有吸引力,但必须把事实核验、检索grounding和人工复核纳入系统设计 [31][33]

如果你需要开放权重和原生多模态输入,Kimi K2.6是一个值得跟进的候选;不过,在缺少更多同台分数前,更适合先做内部PoC,而不是仅凭榜单直接替换关键生产模型 [35][36]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • 目前没有一个公开基准能把四个模型完整地同台比较;GPT 5.5与Claude Opus 4.7有较多直接分数,DeepSeek V4和Kimi K2.6的公开信息更多集中在长上下文、开放权重、多模态和可靠性指标上 [2][7][31][33][35][36]。
  • 在Vellum表格中,GPT 5.5在Terminal Bench 2.0以82.7%领先Claude Opus 4.7的69.4%,但Claude Opus 4.7在SWE Bench Pro以64.3%领先GPT 5.5的58.6% [2]。
  • DeepSeek V4 Pro的上下文窗口达到1,000k tokens,高于Kimi K2.6的256k tokens;但Artificial Analysis同时报告DeepSeek V4 Pro的hallucination rate为94%,生产环境应额外做检索 grounding、事实核验或人工复核 [31][33]。

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026基准测试与选型建议" คืออะไร

目前没有一个公开基准能把四个模型完整地同台比较;GPT 5.5与Claude Opus 4.7有较多直接分数,DeepSeek V4和Kimi K2.6的公开信息更多集中在长上下文、开放权重、多模态和可靠性指标上 [2][7][31][33][35][36]。

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

目前没有一个公开基准能把四个模型完整地同台比较;GPT 5.5与Claude Opus 4.7有较多直接分数,DeepSeek V4和Kimi K2.6的公开信息更多集中在长上下文、开放权重、多模态和可靠性指标上 [2][7][31][33][35][36]。 在Vellum表格中,GPT 5.5在Terminal Bench 2.0以82.7%领先Claude Opus 4.7的69.4%,但Claude Opus 4.7在SWE Bench Pro以64.3%领先GPT 5.5的58.6% [2]。

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 Pro的上下文窗口达到1,000k tokens,高于Kimi K2.6的256k tokens;但Artificial Analysis同时报告DeepSeek V4 Pro的hallucination rate为94%,生产环境应额外做检索 grounding、事实核验或人工复核 [31][33]。

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

แหล่งที่มา

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024