| 終端與 agentic computing | GPT-5.5 | Terminal-Bench 2.0 82.7%,大幅高過 Claude Opus 4.7 的 69.4% 同 DeepSeek-V4-Pro-Max 的 67.9% |
| OS 操作 | GPT-5.5 | OSWorld-Verified 78.7%,略高於 Claude Opus 4.7 的 78.0% |
| 前沿數學 | GPT-5.5 | FrontierMath Tiers 1–3 51.7%,高過 Claude Opus 4.7 的 43.8% |
| 共用表內的軟件工程 | Claude Opus 4.7 | SWE-Bench Pro / SWE Pro 64.3%,高過 GPT-5.5 58.6% 同 DeepSeek-V4-Pro-Max 55.4% |
| 瀏覽與網頁理解 | GPT-5.5 Pro | BrowseComp 90.1%,高過 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4% 同 Claude Opus 4.7 79.3% |
| MCP 式公共工具流程 | Claude Opus 4.7 | MCP Atlas / MCPAtlas Public 79.1%,高過 GPT-5.5 75.3% 同 DeepSeek-V4-Pro-Max 73.6% |
| 視覺與文件分析 | Claude Opus 4.7 | 被報告為 Vision & Document Arena 整體第 1,並在 diagram、homework、OCR 子類別勝出 |
| 成本敏感評估 | DeepSeek V4 | VentureBeat 指 DeepSeek V4 接近 state-of-the-art 智能,但成本約為 Opus 4.7 同 GPT-5.5 的六分之一;實際仍要用自己工作負載驗證 |
| Kimi K2.6 的位置 | 要另場實測 | Kimi 有可用分數,但引用證據主要來自獨立比較,唔係同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 同一張主表 |
以下將同場結果同另場 Kimi 結果放埋一齊,但已標明來源。凡係混用不同表、不同 harness、不同模式的行,都要保守閱讀。
GPT-5.5 最乾淨的一仗係 Terminal-Bench 2.0:82.7%,對比 Claude Opus 4.7 的 69.4% 同 DeepSeek-V4-Pro-Max 的 67.9%,係這批已引用跑分之中差距最大的一類 。
在 OSWorld-Verified,GPT-5.5 亦領先 Claude Opus 4.7,但差距好細:78.7% 對 78.0% 。FrontierMath Tiers 1–3 的差距就明顯啲,GPT-5.5 51.7%,Claude 43.8%
。
如果任務重點係工具輔助推理或者瀏覽,GPT-5.5 Pro 會令畫面改變。Humanity’s Last Exam 有工具一項,GPT-5.5 Pro 57.2%,高過 Claude Opus 4.7 54.7%、GPT-5.5 52.2% 同 DeepSeek-V4-Pro-Max 48.2% 。BrowseComp 亦係 GPT-5.5 Pro 領先:90.1%,對比 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4% 同 Claude Opus 4.7 79.3%
。
不過,GPT-5.5 唔係所有 reasoning 類都贏。GPQA Diamond 入面,Claude Opus 4.7 以 94.2% 輕微高過 GPT-5.5 的 93.6% 。另有 GPT-5.5 專屬領域分數,例如 Harvey BigLaw Bench 91.7%、內部 investment-banking benchmark 88.5%、BixBench 80.5%,但該摘錄未列出 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 的同項分數,所以唔能夠當成四方勝利
。
Claude Opus 4.7 在主共用表的無工具 reasoning 表現最好。它在 GPQA Diamond 得 94.2%,在 Humanity’s Last Exam 無工具得 46.9% 。同一張表入面,Claude 亦在 SWE-Bench Pro / SWE Pro 得 64.3%,以及 MCP Atlas / MCPAtlas Public 得 79.1%,都係該行領先
。
Claude 的相對短板,是終端式、agentic computing 任務。Terminal-Bench 2.0 入面,GPT-5.5 以 82.7% 對 Claude 的 69.4%,領先超過 13 分;GPT-5.5 亦在 OSWorld-Verified 同 FrontierMath Tiers 1–3 高過 Claude 。
多模態同文件方面,Claude 有最強的引用訊號。有來源報告 Claude Opus 4.7 在 Vision & Document Arena 排整體第 1,在 Document Arena 比 Opus 4.6 多 4 分,並贏 diagram、homework、OCR 子類別 。不過,同一來源無提供 GPT-5.5、DeepSeek V4、Kimi K2.6 的同場數字,所以這支持 Claude 的文件能力,但唔等於完整四方多模態排名
。
DeepSeek 的標籤要睇清楚。主共用表用的是 DeepSeek-V4-Pro-Max;Artificial Analysis 的上下文比較用 DeepSeek V4 Pro。兩個名唔應該自動當成完全同一個配置 。
在主共用表,DeepSeek-V4-Pro-Max 表現有競爭力,但未有任何一行領先。它在 GPQA Diamond 得 90.1%,Humanity’s Last Exam 無工具 37.7%,Humanity’s Last Exam 有工具 48.2%,Terminal-Bench 2.0 67.9%,SWE-Bench Pro / SWE Pro 55.4%,BrowseComp 83.4%,MCP Atlas / MCPAtlas Public 73.6% 。
DeepSeek 最值得留意的引用賣點係成本,而唔係單項跑分冠軍。VentureBeat 形容 DeepSeek V4 以約 Opus 4.7 同 GPT-5.5 六分之一的成本,提供接近 state-of-the-art 的智能 。這是將它放入 shortlist 的理由,但唔係跳過自己質量測試的理由。
長上下文方面,一個 Artificial Analysis 比較列出 DeepSeek V4 Pro 同 Claude Opus 4.7 都有 1,000k-token context window 。這只支持該比較下的配置相同,不代表每個 DeepSeek 或 Claude 模式都一樣
。
Kimi K2.6 最難乾淨排名,因為它無出現在 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 的主共用表 。一個 Kimi-focused 比較列出 K2.6 在 SWE-Bench Pro 得 58.6%、SWE-Bench Verified 80.2%、Terminal-Bench 2.0 66.7%、Humanity’s Last Exam 有工具 54.0%、LiveCodeBench v6 89.6%
。該來源指 K2.6 數字來自 Moonshot AI 官方 model card,但比較對象主要是 Claude Opus 4.6 同 GPT-5.4,而唔係本文四個精確型號同場
。
另一個 Kimi vs DeepSeek 比較顯示,Kimi K2.6 在 Thinking mode 下 AIME 2026 得 96.4%、APEX Agents 得 27.9%,並在 BrowseComp 得 83.2% 。同一來源列 DeepSeek-V4 Pro 在 BrowseComp 得 83.4%,但 AIME 2026 同 APEX Agents 的 DeepSeek 數字未有可用
。
這不是一張宇宙總榜。來源混合了 GPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7 同 Kimi K2.6 等不同變體 。有些數字亦是供應商報告;Vellum 指其 GPT-5.5 表內 benchmark values 為 vendor-reported,而 OpenAI 亦註明其 GPT 在 ARC 上的評估以 xhigh reasoning effort 在研究環境進行,部分情況可能跟 production ChatGPT 輸出有少許不同
。
細差距只適合當方向參考。Claude 在 GPQA Diamond 對 GPT-5.5 的優勢只有 0.6 分;GPT-5.5 在 OSWorld-Verified 對 Claude 的優勢只有 0.7 分 。較大差距先更有操作價值,例如 GPT-5.5 在 Terminal-Bench 2.0 對 Claude 領先超過 13 分,在 FrontierMath 對 Claude 領先 7.9 分
。
最實際的結論:GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 之間,沒有一個所有任務都贏的絕對冠軍。先揀最貼近你真實工作負載的 benchmark,再用你實際會部署的工具、上下文、延遲同成本條件,重跑候選模型。
Comments
0 comments