報告已發布2026年4月29日Last edited 2026年5月6日5 來源

公開 benchmark 點樣讀：GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6

現有公開資料入面，四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0：GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6] OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6] 唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、conte...

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住AI 生成插图：多模型基准测试对比场景。
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住. Article summary: 最稳妥的读法是：目前四者能较清楚横向对齐的是 Terminal Bench 2.0，GPT 5.5 以 82.7% 领先；但公开分数来自不同厂商表，不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,
openai.com

公開 benchmark 可以令你快啲縮窄模型名單，但唔好急住將四個名拼成一張「總分榜」。就目前可引用資料，來源分別係 OpenAI 的 GPT-5.5 發布頁同系統卡、Anthropic 的 Claude Opus 4.7 API 文件，以及 DeepSeek V4-Pro 模型卡；佢哋並唔係同一個第三方、同一版本、同一套測試設定下做嘅完整四方同場測試。^[29]^[27]^[13]^[6]

換句話講，公開分數有參考價值，但如果你係為產品、採購或者架構選型做決定，應該把它當成第一輪篩選，而唔係最後判決。

先講清楚：本文比較邊個版本

本文把 DeepSeek V4 限定為 DeepSeek 模型卡入面嘅 DS-V4-Pro Max，把 Kimi K2.6 限定為 K2.6 Thinking；呢兩個係 DeepSeek 表格可以直接引用嘅欄名。^[6]

呢點好重要：DeepSeek 模型卡入面嘅 GPT 同 Claude 欄，分別係 GPT-5.4 xHigh 同 Opus-4.6 Max，唔係本文要比較嘅 GPT-5.5 同 Claude Opus 4.7。^[6] 所以，唔可以直接用 DeepSeek 嗰張表去判斷 DeepSeek V4-Pro Max 對 GPT-5.5 或 Claude Opus 4.7 嘅完整勝負。

Anthropic 公開嘅 Claude Opus 4.7 API 文件，重點係功能同調用方式，例如


task budgets

beta；佢唔係一張可以同 OpenAI、DeepSeek、Kimi 直接合併嘅四方 benchmark 總表。^[13]

最硬淨嘅四方交集：Terminal-Bench 2.0

喺本文可引用資料入面，四個目標模型都有公開分數、而又比較容易擺埋一齊睇嘅項目，是 Terminal-Bench 2.0。按現有公開表格，排序如下：

模型	Terminal-Bench 2.0	來源
GPT-5.5	82.7%	OpenAI 發布頁及 MLQ.ai 摘要 ^[29]^[30]
Claude Opus 4.7	69.4%	OpenAI 發布頁 ^[29]
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡 ^[6]
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡 ^[6]

呢個比較可以支持一個窄但有用嘅結論：只睇 Terminal-Bench 2.0，GPT-5.5 明顯領先，Claude Opus 4.7 排第二，DeepSeek V4-Pro Max 同 Kimi K2.6 Thinking 接近。^[29]^[30]^[6]

但呢個結論唔應該被放大成「GPT-5.5 在所有場景都贏」。Terminal-Bench 2.0 只係一項測試；真正上線時，工具權限、上下文長度、推理預算、提示詞、重試策略同成本限制，都可能改變結果。

OpenAI 表內：GPT-5.5 對 Claude Opus 4.7

OpenAI 發布頁列出 GPT-5.5 同 Claude Opus 4.7 多項 benchmark 對比；喺表內列出嘅項目，GPT-5.5 分數都高過 Claude Opus 4.7。^[29]

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

穩陣講法係：喺 OpenAI 列出嘅呢幾項入面，GPT-5.5 高於 Claude Opus 4.7。^[29] OpenAI 系統卡亦將 GPT-5.5 描述為面向複雜真實工作的模型，包括寫 code、網上研究、分析資料、建立文件同試算表，以及跨工具完成任務等場景。^[27]

不過，呢組仍然係 OpenAI 發布頁中嘅對比表，唔等於獨立第三方用同一套 harness 對四個目標模型做嘅統一復測。^[29]

DeepSeek 表內：DS-V4-Pro Max 對 Kimi K2.6 Thinking

DeepSeek V4-Pro 模型卡提供咗 DS-V4-Pro Max 同 K2.6 Thinking 多項表內對比。^[6] 呢張表入面，DS-V4-Pro Max 喺多數項目高過 Kimi K2.6 Thinking；但 Kimi 亦有明確領先嘅項目。^[6]

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表內領先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

所以較安全嘅讀法係：在 DeepSeek 模型卡列出嘅多數項目上，DS-V4-Pro Max 高於 K2.6 Thinking；但 Kimi K2.6 Thinking 在 GPQA Diamond 同 SWE Pro 上領先。^[6] 另外，MMLU-Pro 同 Terminal-Bench 2.0 嘅差距都唔算大，做產品決策時唔好只睇箭嘴向邊，仲要睇任務類型、樣本穩定性同你自己嘅容錯空間。

點解唔可以直接排四方總榜

最常見嘅錯誤，是將 OpenAI 表、DeepSeek 表同 Anthropic 功能文件硬合併，然後計出一個「總冠軍」。目前公開資料唔支持咁做，主要有三個原因：

版本唔一致。 OpenAI 表比較 GPT-5.5 同 Claude Opus 4.7；DeepSeek 表入面嘅 GPT 同 Claude 欄卻係 GPT-5.4 xHigh 同 Opus-4.6 Max。^[29]^[6]
來源唔一致。 現有資料來自廠商發布頁、系統卡、API 文件同模型卡，唔係同一個第三方評測框架下嘅完整四方復測。^[29]^[27]^[13]^[6]
指標唔等價。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等項目量度嘅能力唔同；如果冇清楚權重，直接加總會掩蓋真實任務差異。^[29]^[6]

因此，公開 benchmark 最適合用來做第一層篩選，而唔係產品採購、模型路由或架構選型嘅唯一依據。

真正揀模型時，應該點用呢啲分數

比較實際嘅做法，是分三層睇：

共享 benchmark 層。 目前最清楚嘅四方交集係 Terminal-Bench 2.0；喺呢一項，GPT-5.5 領先。^[29]^[30]^[6]
廠商表內比較層。 OpenAI 表支持 GPT-5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多數列項高於 K2.6 Thinking。^[29]^[6]
業務復測層。 將你真正要做嘅任務拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等維度，用同一提示詞、同一上下文、同一工具權限同同一評分規則重測。

如果你嘅產品依賴較長嘅 agent loop，Claude Opus 4.7 嘅


task budgets

值得單獨測試：Anthropic 文件指，呢個功能會為完整 agentic loop 提供粗略 token 目標，涵蓋 thinking、tool calls、tool results 同 final output，並讓模型看到預算倒數，方便分配工作同收尾。^[13]

如果你嘅場景更接近複雜 coding、網上 research、文件或試算表生成、跨工具工作，GPT-5.5 系統卡描述嘅定位同呢類任務較直接相關。^[27] 但即使某模型公開表分數較高，都應該放入你自己嘅 codebase、工具鏈、權限邊界、失敗復原規則同成本限制入面再試。

最穩妥嘅排名講法

Terminal-Bench 2.0 單項： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。^[29]^[30]^[6]
OpenAI 表內： GPT-5.5 在列出項目高於 Claude Opus 4.7。^[29]
DeepSeek 表內： DS-V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 同 SWE Pro 領先。^[6]
四方絕對總排名： 證據不足。公開資料未有提供同一第三方、同一版本、同一測試條件下嘅完整四方對測。^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

現有公開資料入面，四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0：GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6]
OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6]
唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

人們還問

「公開 benchmark 點樣讀：GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6」的簡短答案是什麼？

現有公開資料入面，四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0：GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月25日

研究問題

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 來源

引用的答案

可以，但要分开看。就我目前核实到的公开数字，四家里能直接横向对齐的共享基准其实很少；最清楚的一项是 Terminal-Bench 2.0：GPT-5.5 为 82.7%，Claude Opus 4.7 为 69.4%，DeepSeek V4-Pro Max 为 67.9%，Kimi K2.6 Thinking 为 66.7%。^[5]^[12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表，所以可以做“有保留的比较”，但不足以稳妥给出一个统一总排名。^[5]^[12]

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

如果你愿意，我下一步可以直接帮你整理成一张更实用的对比表，按 Coding / Agent / Reasoning / Vision 四个维度分开排，并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

來源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

熱門發現

報告已發布2026年4月29日Last edited 2026年5月6日5 來源

公開 benchmark 點樣讀：GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

換句話講，公開分數有參考價值，但如果你係為產品、採購或者架構選型做決定，應該把它當成第一輪篩選，而唔係最後判決。

先講清楚：本文比較邊個版本

本文把 DeepSeek V4 限定為 DeepSeek 模型卡入面嘅 DS-V4-Pro Max，把 Kimi K2.6 限定為 K2.6 Thinking；呢兩個係 DeepSeek 表格可以直接引用嘅欄名。^[6]

Anthropic 公開嘅 Claude Opus 4.7 API 文件，重點係功能同調用方式，例如


task budgets

beta；佢唔係一張可以同 OpenAI、DeepSeek、Kimi 直接合併嘅四方 benchmark 總表。^[13]

最硬淨嘅四方交集：Terminal-Bench 2.0

喺本文可引用資料入面，四個目標模型都有公開分數、而又比較容易擺埋一齊睇嘅項目，是 Terminal-Bench 2.0。按現有公開表格，排序如下：

模型	Terminal-Bench 2.0	來源
GPT-5.5	82.7%	OpenAI 發布頁及 MLQ.ai 摘要 ^[29]^[30]
Claude Opus 4.7	69.4%	OpenAI 發布頁 ^[29]
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡 ^[6]
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡 ^[6]

OpenAI 表內：GPT-5.5 對 Claude Opus 4.7

OpenAI 發布頁列出 GPT-5.5 同 Claude Opus 4.7 多項 benchmark 對比；喺表內列出嘅項目，GPT-5.5 分數都高過 Claude Opus 4.7。^[29]

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

不過，呢組仍然係 OpenAI 發布頁中嘅對比表，唔等於獨立第三方用同一套 harness 對四個目標模型做嘅統一復測。^[29]

DeepSeek 表內：DS-V4-Pro Max 對 Kimi K2.6 Thinking

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表內領先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

點解唔可以直接排四方總榜

最常見嘅錯誤，是將 OpenAI 表、DeepSeek 表同 Anthropic 功能文件硬合併，然後計出一個「總冠軍」。目前公開資料唔支持咁做，主要有三個原因：

版本唔一致。 OpenAI 表比較 GPT-5.5 同 Claude Opus 4.7；DeepSeek 表入面嘅 GPT 同 Claude 欄卻係 GPT-5.4 xHigh 同 Opus-4.6 Max。^[29]^[6]
來源唔一致。 現有資料來自廠商發布頁、系統卡、API 文件同模型卡，唔係同一個第三方評測框架下嘅完整四方復測。^[29]^[27]^[13]^[6]
指標唔等價。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等項目量度嘅能力唔同；如果冇清楚權重，直接加總會掩蓋真實任務差異。^[29]^[6]

因此，公開 benchmark 最適合用來做第一層篩選，而唔係產品採購、模型路由或架構選型嘅唯一依據。

真正揀模型時，應該點用呢啲分數

比較實際嘅做法，是分三層睇：

共享 benchmark 層。 目前最清楚嘅四方交集係 Terminal-Bench 2.0；喺呢一項，GPT-5.5 領先。^[29]^[30]^[6]
廠商表內比較層。 OpenAI 表支持 GPT-5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多數列項高於 K2.6 Thinking。^[29]^[6]
業務復測層。 將你真正要做嘅任務拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等維度，用同一提示詞、同一上下文、同一工具權限同同一評分規則重測。

如果你嘅產品依賴較長嘅 agent loop，Claude Opus 4.7 嘅


task budgets

最穩妥嘅排名講法

Terminal-Bench 2.0 單項： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。^[29]^[30]^[6]
OpenAI 表內： GPT-5.5 在列出項目高於 Claude Opus 4.7。^[29]
DeepSeek 表內： DS-V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 同 SWE Pro 領先。^[6]
四方絕對總排名： 證據不足。公開資料未有提供同一第三方、同一版本、同一測試條件下嘅完整四方對測。^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

現有公開資料入面，四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0：GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6]
OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6]
唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

人們還問

「公開 benchmark 點樣讀：GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6」的簡短答案是什麼？

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月25日

研究問題

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 來源

引用的答案

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

來源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

熱門發現

報告已發布2026年4月29日Last edited 2026年5月6日5 來源

公開 benchmark 點樣讀：GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

換句話講，公開分數有參考價值，但如果你係為產品、採購或者架構選型做決定，應該把它當成第一輪篩選，而唔係最後判決。

先講清楚：本文比較邊個版本

本文把 DeepSeek V4 限定為 DeepSeek 模型卡入面嘅 DS-V4-Pro Max，把 Kimi K2.6 限定為 K2.6 Thinking；呢兩個係 DeepSeek 表格可以直接引用嘅欄名。^[6]

Anthropic 公開嘅 Claude Opus 4.7 API 文件，重點係功能同調用方式，例如


task budgets

beta；佢唔係一張可以同 OpenAI、DeepSeek、Kimi 直接合併嘅四方 benchmark 總表。^[13]

最硬淨嘅四方交集：Terminal-Bench 2.0

喺本文可引用資料入面，四個目標模型都有公開分數、而又比較容易擺埋一齊睇嘅項目，是 Terminal-Bench 2.0。按現有公開表格，排序如下：

模型	Terminal-Bench 2.0	來源
GPT-5.5	82.7%	OpenAI 發布頁及 MLQ.ai 摘要 ^[29]^[30]
Claude Opus 4.7	69.4%	OpenAI 發布頁 ^[29]
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡 ^[6]
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡 ^[6]

OpenAI 表內：GPT-5.5 對 Claude Opus 4.7

OpenAI 發布頁列出 GPT-5.5 同 Claude Opus 4.7 多項 benchmark 對比；喺表內列出嘅項目，GPT-5.5 分數都高過 Claude Opus 4.7。^[29]

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

不過，呢組仍然係 OpenAI 發布頁中嘅對比表，唔等於獨立第三方用同一套 harness 對四個目標模型做嘅統一復測。^[29]

DeepSeek 表內：DS-V4-Pro Max 對 Kimi K2.6 Thinking

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表內領先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

點解唔可以直接排四方總榜

最常見嘅錯誤，是將 OpenAI 表、DeepSeek 表同 Anthropic 功能文件硬合併，然後計出一個「總冠軍」。目前公開資料唔支持咁做，主要有三個原因：

版本唔一致。 OpenAI 表比較 GPT-5.5 同 Claude Opus 4.7；DeepSeek 表入面嘅 GPT 同 Claude 欄卻係 GPT-5.4 xHigh 同 Opus-4.6 Max。^[29]^[6]
來源唔一致。 現有資料來自廠商發布頁、系統卡、API 文件同模型卡，唔係同一個第三方評測框架下嘅完整四方復測。^[29]^[27]^[13]^[6]
指標唔等價。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等項目量度嘅能力唔同；如果冇清楚權重，直接加總會掩蓋真實任務差異。^[29]^[6]

因此，公開 benchmark 最適合用來做第一層篩選，而唔係產品採購、模型路由或架構選型嘅唯一依據。

真正揀模型時，應該點用呢啲分數

比較實際嘅做法，是分三層睇：

共享 benchmark 層。 目前最清楚嘅四方交集係 Terminal-Bench 2.0；喺呢一項，GPT-5.5 領先。^[29]^[30]^[6]
廠商表內比較層。 OpenAI 表支持 GPT-5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多數列項高於 K2.6 Thinking。^[29]^[6]
業務復測層。 將你真正要做嘅任務拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等維度，用同一提示詞、同一上下文、同一工具權限同同一評分規則重測。

如果你嘅產品依賴較長嘅 agent loop，Claude Opus 4.7 嘅


task budgets

最穩妥嘅排名講法

Terminal-Bench 2.0 單項： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。^[29]^[30]^[6]
OpenAI 表內： GPT-5.5 在列出項目高於 Claude Opus 4.7。^[29]
DeepSeek 表內： DS-V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 同 SWE Pro 領先。^[6]
四方絕對總排名： 證據不足。公開資料未有提供同一第三方、同一版本、同一測試條件下嘅完整四方對測。^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

現有公開資料入面，四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0：GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6]
OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7；DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6]
唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

人們還問

「公開 benchmark 點樣讀：GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6」的簡短答案是什麼？

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

唔建議把不同廠商表直接加總；採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

你2026年4月25日

研究問題

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 來源

引用的答案

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

來源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...