studioglobal
热门发现
报告已发布5 来源

GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: benchmark công khai nói được gì?

Giao điểm công khai rõ nhất giữa bốn mô hình là Terminal Bench 2.0: GPT 5.5 đạt 82,7%, Claude Opus 4.7 đạt 69,4%, DeepSeek V4 Pro Max đạt 67,9% và Kimi K2.6 Thinking đạt 66,7%.[29][30][6] Trong bảng của OpenAI, GPT 5.5 cao hơn Claude Opus 4.7 ở các hạng mục được liệt kê; trong model card của DeepSeek, DS V4 Pro Max...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住AI 生成插图:多模型基准测试对比场景。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住. Article summary: 最稳妥的读法是:目前四者能较清楚横向对齐的是 Terminal Bench 2.0,GPT 5.5 以 82.7% 领先;但公开分数来自不同厂商表,不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,

openai.com

Benchmark công khai rất hữu ích để sàng lọc mô hình, nhưng không nên đọc như một bảng xếp hạng bóng đá. Với GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6, dữ liệu có thể trích dẫn hiện nằm rải rác ở trang ra mắt và system card của OpenAI, tài liệu API của Anthropic, cùng model card DeepSeek V4-Pro. Đây không phải là một bài kiểm tra bốn bên do cùng một bên thứ ba chạy, trên cùng phiên bản và cùng cấu hình đánh giá.[29][27][13][6]

Trước hết phải thống nhất phiên bản

Trong bài này, DeepSeek V4 được hiểu là DS-V4-Pro Max, còn Kimi K2.6 được hiểu là K2.6 Thinking. Hai tên này là các cột có thể trích dẫn trực tiếp trong bảng của DeepSeek.[6]

Điểm này quan trọng vì bảng DeepSeek có các cột GPT và Claude, nhưng đó là GPT-5.4 xHighOpus-4.6 Max, không phải GPT-5.5 và Claude Opus 4.7.[6] Vì vậy, không thể lấy bảng đó để kết luận DeepSeek V4-Pro Max thắng hay thua GPT-5.5 hoặc Claude Opus 4.7 trên toàn bộ các benchmark.

Tài liệu công khai của Anthropic về Claude Opus 4.7 chủ yếu mô tả tính năng và cách gọi API, chẳng hạn beta

task budgets
, chứ không phải một bảng benchmark bốn bên có thể ghép trực tiếp với OpenAI, DeepSeek và Kimi.[13]

Giao điểm chắc nhất: Terminal-Bench 2.0

Trong các nguồn hiện có, hạng mục chung rõ nhất có điểm cho cả bốn mô hình là Terminal-Bench 2.0. Nếu chỉ nhìn hạng mục này, thứ tự là:

Mô hìnhTerminal-Bench 2.0Nguồn
GPT-5.582,7%OpenAI và MLQ.ai [29][30]
Claude Opus 4.769,4%OpenAI [29]
DeepSeek V4-Pro Max67,9%DeepSeek V4-Pro model card [6]
Kimi K2.6 Thinking66,7%DeepSeek V4-Pro model card [6]

Kết luận chắc nhất nhưng cũng hẹp nhất là: trên Terminal-Bench 2.0, GPT-5.5 dẫn đầu khá xa; Claude Opus 4.7 đứng thứ hai; DeepSeek V4-Pro Max và Kimi K2.6 Thinking ở khá gần nhau.[29][30][6]

Điều này không tự động có nghĩa GPT-5.5 sẽ đứng đầu trong mọi sản phẩm, mọi kho mã, mọi luồng agent hoặc mọi ngân sách suy luận. Nó chỉ nói về một bài đo cụ thể, dựa trên các bảng công khai hiện có.

GPT-5.5 so với Claude Opus 4.7 trong bảng của OpenAI

OpenAI công bố một số benchmark đặt GPT-5.5 cạnh Claude Opus 4.7. Trong các hạng mục được liệt kê ở bảng này, GPT-5.5 đều có điểm cao hơn Claude Opus 4.7.[29]

Benchmark trong bảng OpenAIGPT-5.5Claude Opus 4.7
Terminal-Bench 2.082,7%69,4%
GDPval wins or ties84,9%80,3%
BrowseComp84,4%79,3%
FrontierMath Tier 1–351,7%43,8%
FrontierMath Tier 435,4%22,9%
CyberGym81,8%73,1%

Cách đọc thận trọng là: trong các hạng mục OpenAI liệt kê, GPT-5.5 cao hơn Claude Opus 4.7.[29] System card của OpenAI cũng mô tả GPT-5.5 là mô hình cho các công việc thực tế phức tạp như viết mã, nghiên cứu trực tuyến, phân tích thông tin, tạo tài liệu và bảng tính, cũng như di chuyển qua nhiều công cụ để hoàn thành nhiệm vụ.[27]

Nhưng đây vẫn là bảng so sánh trên trang OpenAI, không phải một bài đo độc lập bốn mô hình cùng một harness, cùng quyền công cụ và cùng giới hạn tài nguyên.[29]

DeepSeek V4-Pro Max so với Kimi K2.6 Thinking trong model card DeepSeek

Model card DeepSeek V4-Pro cung cấp nhiều hạng mục so sánh giữa DS-V4-Pro Max và K2.6 Thinking.[6] Trong bảng này, DeepSeek V4-Pro Max cao hơn ở đa số hạng mục, nhưng Kimi vẫn có các điểm dẫn rõ ràng.[6]

Benchmark trong model card DeepSeekDeepSeek V4-Pro MaxKimi K2.6 ThinkingBên dẫn trong bảng
MMLU-Pro87,587,1DeepSeek
SimpleQA-Verified57,936,9DeepSeek
Chinese-SimpleQA84,475,9DeepSeek
GPQA Diamond90,190,5Kimi
HLE37,736,4DeepSeek
LiveCodeBench93,589,6DeepSeek
HMMT 2026 Feb95,292,7DeepSeek
IMOAnswerBench89,886,0DeepSeek
Apex Shortlist90,275,5DeepSeek
SWE Pro55,458,6Kimi
Terminal-Bench 2.067,966,7DeepSeek

Cách diễn giải an toàn: trong các hạng mục DeepSeek công bố, DS-V4-Pro Max cao hơn K2.6 Thinking ở phần lớn bài đo, còn Kimi K2.6 Thinking dẫn ở GPQA Diamond và SWE Pro.[6] Với những hạng mục có chênh lệch nhỏ như MMLU-Pro hoặc Terminal-Bench 2.0, người chọn mô hình không nên chỉ nhìn mũi tên thắng-thua; cần xem loại tác vụ, sai số và điều kiện chạy thực tế.

Vì sao chưa thể có bảng tổng sắp tuyệt đối cho cả bốn?

Sai lầm dễ gặp là lấy bảng của OpenAI, bảng của DeepSeek và tài liệu tính năng của Anthropic rồi cộng thành một điểm tổng. Dữ liệu hiện có chưa đủ cho cách làm đó, vì ba lý do chính:

  1. Khác phiên bản đối thủ. OpenAI so GPT-5.5 với Claude Opus 4.7; trong khi bảng DeepSeek dùng GPT-5.4 xHigh và Opus-4.6 Max cho các cột GPT và Claude.[29][6]
  2. Khác nguồn đánh giá. Các dữ liệu đến từ trang ra mắt, system card, tài liệu API và model card của từng hãng, không phải một bộ đánh giá độc lập chạy lại đầy đủ cho cả bốn mô hình.[29][27][13][6]
  3. Khác loại năng lực được đo. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond và SWE Pro không đo cùng một thứ. Nếu không có trọng số rõ ràng, cộng điểm sẽ che mất khác biệt giữa tác vụ thực tế.[29][6]

Nói ngắn gọn: benchmark công khai nên được dùng như vòng lọc đầu tiên, không phải căn cứ duy nhất để mua, tích hợp hoặc thiết kế kiến trúc sản phẩm.

Dùng các con số này thế nào khi chọn mô hình?

Một cách thực dụng hơn là tách thành ba tầng:

  • Tầng benchmark chung. Giao điểm rõ nhất hiện nay là Terminal-Bench 2.0; ở hạng mục này, GPT-5.5 đứng đầu.[29][30][6]
  • Tầng so sánh trong từng bảng của hãng. Bảng OpenAI cho thấy GPT-5.5 cao hơn Claude Opus 4.7 ở các hạng mục được công bố; model card DeepSeek cho thấy DS-V4-Pro Max cao hơn K2.6 Thinking ở đa số hạng mục được liệt kê.[29][6]
  • Tầng kiểm thử theo nghiệp vụ của bạn. Hãy tách tác vụ thành coding, agent, reasoning, truy xuất thông tin, dùng công cụ, độ trễ và chi phí; sau đó chạy lại với cùng prompt, cùng context, cùng quyền công cụ và cùng luật chấm điểm.

Nếu sản phẩm phụ thuộc vào các vòng agent dài,

task budgets
của Claude Opus 4.7 đáng được kiểm thử riêng. Anthropic mô tả tính năng này như một mục tiêu token xấp xỉ cho toàn bộ vòng agentic loop, gồm thinking, tool calls, tool results và final output; mô hình thấy bộ đếm ngân sách còn lại để tự ưu tiên công việc.[13]

Nếu sản phẩm thiên về viết mã phức tạp, nghiên cứu trực tuyến, tạo tài liệu hoặc bảng tính, hay phối hợp nhiều công cụ, mô tả trong system card GPT-5.5 khớp trực tiếp với các nhóm tác vụ đó hơn.[27] Dù vậy, mô hình dẫn điểm trên bảng công khai vẫn cần được đặt vào kho mã, công cụ, ranh giới quyền truy cập và cơ chế phục hồi lỗi của chính bạn để kiểm chứng.

Kết luận nên nói thế nào cho chắc?

  • Riêng Terminal-Bench 2.0: GPT-5.5 thứ nhất, Claude Opus 4.7 thứ hai, DeepSeek V4-Pro Max thứ ba, Kimi K2.6 Thinking thứ tư.[29][30][6]
  • Trong bảng OpenAI: GPT-5.5 cao hơn Claude Opus 4.7 ở các hạng mục được liệt kê.[29]
  • Trong bảng DeepSeek: DS-V4-Pro Max cao hơn Kimi K2.6 Thinking ở đa số hạng mục, nhưng Kimi dẫn ở GPQA Diamond và SWE Pro.[6]
  • Bảng tổng sắp tuyệt đối bốn mô hình: chưa đủ bằng chứng. Hiện chưa có bài đo công khai đầy đủ do cùng một bên thứ ba chạy, cùng phiên bản, cùng cấu hình và cùng điều kiện đánh giá cho cả GPT-5.5, Claude Opus 4.7, DeepSeek V4-Pro Max và Kimi K2.6 Thinking.[29][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • Giao điểm công khai rõ nhất giữa bốn mô hình là Terminal Bench 2.0: GPT 5.5 đạt 82,7%, Claude Opus 4.7 đạt 69,4%, DeepSeek V4 Pro Max đạt 67,9% và Kimi K2.6 Thinking đạt 66,7%.[29][30][6]
  • Trong bảng của OpenAI, GPT 5.5 cao hơn Claude Opus 4.7 ở các hạng mục được liệt kê; trong model card của DeepSeek, DS V4 Pro Max cao hơn Kimi K2.6 Thinking ở đa số hạng mục, nhưng Kimi dẫn ở GPQA Diamond và SWE Pro.[2...
  • Không nên cộng các điểm này thành một bảng xếp hạng tuyệt đối: khác nguồn, khác phiên bản đối thủ, khác chỉ số và chưa có bài đo bốn bên cùng điều kiện.[29][13][6]

人们还问

“GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: benchmark công khai nói được gì?”的简短答案是什么?

Giao điểm công khai rõ nhất giữa bốn mô hình là Terminal Bench 2.0: GPT 5.5 đạt 82,7%, Claude Opus 4.7 đạt 69,4%, DeepSeek V4 Pro Max đạt 67,9% và Kimi K2.6 Thinking đạt 66,7%.[29][30][6]

首先要验证的关键点是什么?

Giao điểm công khai rõ nhất giữa bốn mô hình là Terminal Bench 2.0: GPT 5.5 đạt 82,7%, Claude Opus 4.7 đạt 69,4%, DeepSeek V4 Pro Max đạt 67,9% và Kimi K2.6 Thinking đạt 66,7%.[29][30][6] Trong bảng của OpenAI, GPT 5.5 cao hơn Claude Opus 4.7 ở các hạng mục được liệt kê; trong model card của DeepSeek, DS V4 Pro Max cao hơn Kimi K2.6 Thinking ở đa số hạng mục, nhưng Kimi dẫn ở GPQA Diamond và SWE Pro.[2...

接下来在实践中我应该做什么?

Không nên cộng các điểm này thành một bảng xếp hạng tuyệt đối: khác nguồn, khác phiên bản đối thủ, khác chỉ số và chưa có bài đo bốn bên cùng điều kiện.[29][13][6]

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI40 来源

引用的答案

可以,但要分开看。就我目前核实到的公开数字,四家里能直接横向对齐的共享基准其实很少;最清楚的一项是 Terminal-Bench 2.0:GPT-5.5 为 82.7%,Claude Opus 4.7 为 69.4%,DeepSeek V4-Pro Max 为 67.9%,Kimi K2.6 Thinking 为 66.7%。[5][12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表,所以可以做“有保留的比较”,但不足以稳妥给出一个统一总排名。[5][12]

Key findings

可直接对齐的共享基准GPT-5.5Claude Opus 4.7DeepSeek V4-Pro MaxKimi K2.6 Thinking
Terminal-Bench 2.0 [5][12]82.7%69.4%67.9%66.7%
  • 在 OpenAI 官方对比表中,凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目,GPT-5.5 都更高,包括 Terminal-Bench 2.0(82.7% vs 69.4%)、GDPval wins or ties(84.9% vs 80.3%)、BrowseComp(84.4% vs 79.3%)、FrontierMath Tier 1–3(51.7% vs 43.8%)、FrontierMath Tier 4(35.4% vs 22.9%)和 CyberGym(81.8% vs 73.1%)。[5]

  • 在 DeepSeek 官方模型卡的对比表中,DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高,包括 MMLU-Pro(87.5 vs 87.1)、SimpleQA-Verified(57.9 vs 36.9)、LiveCodeBench(93.5 vs 89.6)、HMMT 2026 Feb(95.2 vs 92.7)、IMOAnswerBench(89.8 vs 86.0)、Apex Shortlist(90.2 vs 75.5)以及 Terminal-Bench 2.0(67.9 vs 66.7)。[12]

  • 同一张 DeepSeek 对比表里,Kimi K2.6 Thinking 也有少数领先项,例如 GPQA Diamond(90.5 vs 90.1)和 SWE Pro(58.6 vs 55.4)。[12]

  • Anthropic 我目前能直接核实到的官方 Opus 4.7 页面,重点是功能和规格更新:Claude Opus 4.7 被描述为其“最强的通用可用模型”,支持 1M token 上下文、128k 最大输出,以及自适应 thinking 和 task budgets 等能力。[1] 但在我抓取到的官方页面内容里,没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。[1]

Evidence notes

  • 这次比较最好拆成两层:

    1. 共享 benchmark 的直接对比,目前最可靠的是 Terminal-Bench 2.0。[5][12]
    2. 厂商自报表里的组内对比,比如 GPT-5.5 vs Claude Opus 4.7,或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。[5][12]
  • OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。[5]
    DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。[12]

  • 因此,除了像 Terminal-Bench 2.0 这种真正共享的基准外,其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断,不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

  • 我目前核实到的高权威公开数字,主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页,以及 DeepSeek 的 V4-Pro 模型卡。[1][5][12]

  • 最大限制是:这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。[5][12]

  • 尤其是 GPT-5.5 / Claude Opus 4.7 的官方表,与 DeepSeek V4 / Kimi K2.6 的官方表,不共用同一组对手版本;前者是 GPT-5.5 对 Opus 4.7,后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。[5][12]

  • 所以如果问题是“谁是四者里的绝对 benchmark 第一”,目前公开证据仍然是:Insufficient evidence.

Summary

  • 如果你只看当前可直接对齐的共享公开基准,GPT-5.5 在这四个里最强,至少在 Terminal-Bench 2.0 上明显领先。[5][12]

  • 如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking,DeepSeek 在其官方表列出的多数项目上占优,但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。[12]

  • Claude Opus 4.7,目前能较有把握地说:在 OpenAI 官方表里,它落后于 GPT-5.5;但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照,因此不宜直接下四方统一总排名。[5]

如果你愿意,我下一步可以直接帮你整理成一张更实用的对比表,按 Coding / Agent / Reasoning / Vision 四个维度分开排,并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

来源

  • [6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...

  • [27] GPT-5.5 System Card - OpenAIopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...

  • [29] Introducing GPT-5.5openai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai

    Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...