| 終端機與代理式運算 | GPT-5.5 | Terminal-Bench 2.0 為 82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% |
| 作業系統操作 | GPT-5.5 | OSWorld-Verified 為 78.7%,略高於 Claude Opus 4.7 的 78.0% |
| 前沿數學 | GPT-5.5 | FrontierMath Tiers 1–3 為 51.7%,高於 Claude Opus 4.7 的 43.8% |
| 共用表中的軟體工程 | Claude Opus 4.7 | SWE-Bench Pro / SWE Pro 為 64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek-V4-Pro-Max 的 55.4% |
| 網頁瀏覽與理解 | GPT-5.5 Pro | BrowseComp 為 90.1%,高於 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 與 Claude Opus 4.7 的 79.3% |
| MCP 類公用工具流程 | Claude Opus 4.7 | MCP Atlas / MCPAtlas Public 為 79.1%,高於 GPT-5.5 的 75.3% 與 DeepSeek-V4-Pro-Max 的 73.6% |
| 視覺與文件分析 | Claude Opus 4.7 | 有來源報告其在 Vision & Document Arena 排名第一,並在圖表、作業與 OCR 子項勝出 |
| 成本敏感評估 | DeepSeek V4 | VentureBeat 稱 DeepSeek V4 以約 Opus 4.7 與 GPT-5.5 六分之一的成本提供接近前沿的智慧,但仍需用自己的工作負載驗證 |
| 最不適合硬排四方名次 | Kimi K2.6 | Kimi 有可參考分數,但多數來自與主表不同的比較脈絡 |
凡是混用來源的列,都要特別小心。Kimi K2.6 在另一個 Kimi-focused 比較中的分數有參考價值,但可信度不能等同於在同一套測試環境中與 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 並排跑出的結果 。
GPT-5.5 最明確的勝項是 Terminal-Bench 2.0:82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% 。在這批可引用數據中,這是差距相當大的項目之一。
它在 OSWorld-Verified 也領先 Claude Opus 4.7,但差距很小:78.7% 對 78.0% 。在 FrontierMath Tiers 1–3 上,GPT-5.5 的優勢較明顯,為 51.7%,高於 Claude 的 43.8%
。
若任務重點是工具輔助推理或瀏覽,GPT-5.5 Pro 的位置更突出。它在 Humanity’s Last Exam with tools 取得 57.2%,高於 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 與 DeepSeek-V4-Pro-Max 的 48.2% 。在 BrowseComp 上,GPT-5.5 Pro 也以 90.1% 領先 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 與 Claude Opus 4.7 的 79.3%
。
不過,GPT-5.5 並非所有推理項目都領先。Claude Opus 4.7 在 GPQA Diamond 以 94.2% 小幅勝過 GPT-5.5 的 93.6% 。另有 GPT-5.5 指南列出 GPT-5.5-only 的領域結果,例如 Harvey BigLaw Bench 91.7%、內部投資銀行基準 88.5%、BixBench 80.5%;但因同一摘錄未列出 Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的對應分數,這些不應被解讀為四方勝利
。
Claude Opus 4.7 在主共用表中的無工具推理表現最好。它在 GPQA Diamond 達 94.2%,在 Humanity’s Last Exam 無工具為 46.9% 。同一張表中,Claude 也在 SWE-Bench Pro / SWE Pro 以 64.3% 領先,並在 MCP Atlas / MCPAtlas Public 以 79.1% 領先
。
Claude 在所引資料中的弱項,是終端機式操作。GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude 超過 13 個百分點;GPT-5.5 也在 OSWorld-Verified 與 FrontierMath Tiers 1–3 上領先 Claude 。
在多模態與文件方面,Claude 有目前最強的可引用訊號。有來源報告 Claude Opus 4.7 在 Vision & Document Arena 拿下第一,Document Arena 較 Opus 4.6 提升 4 分,並在 diagram、homework、OCR 子類別勝出 。但該來源沒有提供 GPT-5.5、DeepSeek V4、Kimi K2.6 的同場數字,因此這支持 Claude 的文件優勢,卻不構成完整四方多模態排名
。
資料中的 DeepSeek 標籤不只一種。主共用表使用 DeepSeek-V4-Pro-Max;Artificial Analysis 的比較則使用 DeepSeek V4 Pro,並列出 1,000k-token context window 。這些名稱不應自動視為完全可互換。
在主共用表中,DeepSeek-V4-Pro-Max 具競爭力,但沒有領先任何一列。它在 GPQA Diamond 為 90.1%,Humanity’s Last Exam 無工具為 37.7%,Humanity’s Last Exam with tools 為 48.2%,Terminal-Bench 2.0 為 67.9%,SWE-Bench Pro / SWE Pro 為 55.4%,BrowseComp 為 83.4%,MCP Atlas / MCPAtlas Public 為 73.6% 。
DeepSeek 最值得注意的引用說法,是成本效益而非單項跑分冠軍。VentureBeat 形容 DeepSeek V4 能以約 Opus 4.7 與 GPT-5.5 六分之一的成本,提供接近前沿的智慧 。這是把 DeepSeek 放進候選名單的理由,但不是跳過自家測試的理由。
若你關心長上下文,Artificial Analysis 的一個比較列出 DeepSeek V4 Pro 與 Claude Opus 4.7 同為 1,000k-token context window 。這只支持該比較中所列配置的相同上下文長度,不應擴大解讀成所有 DeepSeek 或 Claude 模式都一樣
。
一個 Kimi-focused 比較列出 K2.6 在 SWE-Bench Pro 為 58.6%、SWE-Bench Verified 為 80.2%、Terminal-Bench 2.0 為 66.7%、Humanity’s Last Exam with tools 為 54.0%、LiveCodeBench v6 為 89.6% 。該來源稱 K2.6 數字來自 Moonshot AI 官方模型卡,但比較對象主要是 Claude Opus 4.6 與 GPT-5.4,而不是本文這組精確四方名單
。
另一個 Kimi vs DeepSeek 比較列出 Kimi K2.6 在 Thinking mode 下 AIME 2026 為 96.4%、APEX Agents 為 27.9%,以及在 Thinking mode 與 context management 下 BrowseComp 為 83.2% 。同一來源中,DeepSeek-V4 Pro 的 BrowseComp 為 83.4%,但 AIME 2026 與 APEX Agents 沒有 DeepSeek 對應值
。
這不是一張萬能排行榜。來源混用了 base 與 Pro 變體,包括 GPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7 與 Kimi K2.6 。部分數字也屬供應商報告;OpenAI 也註明其 GPT 的 ARC 評估以 reasoning effort 設為 xhigh,並在研究環境中執行,結果可能與 production ChatGPT 略有不同
。
差距很小的項目,只能當作方向性訊號。Claude 在 GPQA Diamond 對 GPT-5.5 的領先是 0.6 個百分點;GPT-5.5 在 OSWorld-Verified 對 Claude 的領先是 0.7 個百分點 。相對地,較大的差距更有操作價值:GPT-5.5 在 Terminal-Bench 2.0 對 Claude 的領先超過 13 個百分點,在 FrontierMath 對 Claude 的領先為 7.9 個百分點
。
實務結論很簡單:GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 之間沒有單一總冠軍。先找出最像你真實工作負載的基準測試,再用你實際能部署的模型重跑同一套評估,才是比較穩的選型方式。
Comments
0 comments