先講結論:別把不同考卷混成一張榜
2026 年的 AI benchmark 很容易讓人看錯。最常見的問題,是把 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 放在同一張排行榜,卻沒有確認 benchmark 名稱、模型版本、測試日期、harness 與推理模式是否一致。
就目前可用來源來看,最能公平比較的是 Claude Opus 4.7 與 GPT-5.5,因為兩者同時出現在 OpenAI 與 Vellum 的多個相同 benchmark 表格中 [5][
2]。DeepSeek V4 與 Kimi K2.6 則還沒有直接數字;可引用的相近資料其實是 DeepSeek V3.2、KimiK2.5 與 Kimi K2 Thinking [
1][
13][
6]。
簡單說:
- GPT-5.5 在終端機/CLI agent、辦公與專業任務、瀏覽器搜尋,以及部分數學 eval 中更突出 [
5][
2]。
- Claude Opus 4.7 在 SWE-Bench Pro Public、MCP/多工具編排,以及 FinanceAgent v1.1 中更有優勢 [
5][
2]。
- DeepSeek V4 與 Kimi K2.6 目前不能和前兩者做公平排名,因為來源中沒有同版本、同 benchmark 的直接對照數據 [
1][
13][
6]。
真正能直接比較的 benchmark 數字
下表只列 Claude Opus 4.7 與 GPT-5.5 出現在同一 benchmark 的情況。GPT-5.5 Pro 只有在來源把它列為獨立變體時才納入 [2]。
| 使用場景 | Benchmark | 公布結果 | 怎麼讀 |
|---|---|---|---|
| 程式碼修復 | SWE-Bench Pro(Public) | Claude Opus 4.7 64.3% vs GPT-5.5 58.6% [ | Claude 在這個 coding repair benchmark 領先。 |
| 終端機/CLI agent | Terminal-Bench 2.0 | GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [ | GPT-5.5 在終端機類任務的優勢最明顯。 |
| 專業與辦公工作 | GDPval;OfficeQA Pro | GPT-5.5 在 GDPval 為 84.9%,Claude 為 80.3%;GPT-5.5 在 OfficeQA Pro 為 54.1%,Claude 為 43.6% [ | GPT-5.5 在這兩個專業工作指標較高。 |
| 金融 agent | FinanceAgent v1.1 | Claude 64.4% vs GPT-5.5 60.0% [ | Claude 在這個金融 agent eval 領先。 |
| 電腦/瀏覽器任務 | OSWorld-Verified;BrowseComp | OSWorld:GPT-5.5 78.7% vs Claude 78.0%;BrowseComp:GPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% [ | OSWorld 幾乎平手;BrowseComp 則 GPT-5.5 較高。 |
| 工具編排 | MCP Atlas | Claude 79.1% vs GPT-5.5 75.3% [ | Claude 較適合先測工具密集、多步驟編排情境。 |
| 科學與數學推理 | GPQA Diamond;FrontierMath T1–3 | GPQA:Claude 94.2% vs GPT-5.5 93.6%;FrontierMath:GPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% [ | GPQA 差距很小;FrontierMath 則 GPT-5.5 較高。 |
讀 benchmark 前,先避開三個陷阱
1. SWE-Bench Pro 不是 SWE-bench Verified
OpenAI 的 head-to-head 表格使用的是 SWE-Bench Pro(Public),用來比較 GPT-5.5 與 Claude Opus 4.7 [5]。這不能直接和 SWE-bench Verified 混在一起看。BenchLM 將 SWE-bench Verified 說明為 SWE-bench 的人工驗證子集,測試模型能否解決來自 Django、Flask、scikit-learn 等熱門 Python 專案的真實 GitHub issue [
21]。
因此,Claude 在 SWE-Bench Pro Public 的 64.3%,不能直接拿去對比其他排行榜上的 SWE-bench Verified 分數 [5][
21]。要比較,至少要確認 benchmark 名稱、harness、測試日期與模型配置是否相同。
2. GPQA Diamond 對前沿模型的區分度已經變小
Vellum 將 Claude Opus 4.7 的 GPQA Diamond 分數列為 94.2%,GPT-5.5 為 93.6% [2]。The Next Web 也報導,Claude Opus 4.7 為 94.2%、GPT-5.4 Pro 為 94.4%、Gemini 3.1 Pro 為 94.3%,並指出這些差距落在噪音範圍內 [
17]。
換句話說,GPQA Diamond 仍可作為一般推理能力的參考,但不適合單獨拿來決定生產環境要用哪個模型。對產品團隊來說,真正的差異往往出現在長流程、多工具、需要實際完成任務的場景。
3. 第三方排行榜不同,不一定代表誰錯了
以 SWE-bench Verified 為例,Claude Opus 4.7 的分數在不同來源並不完全一致。BenchLM 在 2026 年 4 月 24 日列出 Claude Opus 4.7 Adaptive 為 87.6% [21];LLM Stats 也列出 87.6% [
18]。但 LM Council 顯示 Claude Opus 4.7 max 為 83.5% ±1.7 [
10],MindStudio 則列出 82.4% [
14]。
這類差距通常需要回到方法學檢查:模型配置、評測 harness、日期、是否允許 retry、是否使用特定 reasoning mode,都可能影響結果。公開 benchmark 適合用來縮小候選清單,但不能取代你自己的 repo、工具鏈與工作流程測試。
Claude Opus 4.7:適合優先測 repo repair 與多工具流程
Claude Opus 4.7 最明顯的訊號,集中在程式碼修復與工具編排。OpenAI 的表格中,Claude 在 SWE-Bench Pro Public 以 64.3% 高於 GPT-5.5 的 58.6%,在 FinanceAgent v1.1 也以 64.4% 高於 GPT-5.5 的 60.0% [5]。Vellum 另列出 MCP Atlas:Claude 79.1%,GPT-5.5 75.3% [
2]。
Anthropic 自家的 launch note 也引用合作夥伴評估:Hebbia 觀察到核心 orchestrator agents 在 tool calls 準確率與 planning 上有兩位數提升;Rakuten-SWE-Bench 則回報 Opus 4.7 解決的 production tasks 是 Opus 4.6 的三倍,Code Quality 與 Test Quality 也有兩位數提升 [19]。這些訊號對 agentic workflow 很有參考價值,但仍應視為外部與合作夥伴場景,不等於你的內部工作負載會得到同樣結果。
如果你的重點是自動修 repo、長流程 coding agent、MCP 或多工具操作,Claude Opus 4.7 值得優先進入測試清單。不過,上線前仍要用自己的 test suite、權限模型、tool schema 與錯誤重試邏輯重新驗證。
GPT-5.5:終端機、瀏覽器搜尋、辦公與部分數學更突出
GPT-5.5 最亮眼的差距出現在 Terminal-Bench 2.0。OpenAI 公布 GPT-5.5 為 82.7%,高於 Claude Opus 4.7 的 69.4% 與 Gemini 3.1 Pro 的 68.5% [5]。同一張表中,GPT-5.5 在 GDPval(wins or ties)為 84.9%,Claude 為 80.3%;在 OfficeQA Pro 為 54.1%,Claude 為 43.6% [
5]。
Vellum 的資料則補上電腦使用、搜尋與推理面向:GPT-5.5 在 OSWorld-Verified 以 78.7% 略高於 Claude 的 78.0%;在 BrowseComp 以 84.4% 高於 Claude 的 79.3%;在 FrontierMath T1–3 以 51.7% 高於 Claude 的 43.8% [2]。BrowseComp 中,Vellum 也列出 GPT-5.5 Pro 為 90.1% [
2]。
在 coding 上,畫面比較混合:GPT-5.5 的 Terminal-Bench 2.0 很強,但在 OpenAI 表格的 SWE-Bench Pro Public 中低於 Claude Opus 4.7 [5]。OpenAI System Card 另提到 GPT-5.5 的 CoT-Control 評測套件,包含超過 13,000 個由 GPQA、MMLU-Pro、HLE、BFCL 與 SWE-Bench Verified 等 benchmark 建構的任務 [
26];但該來源並未提供 GPT-5.5 與 DeepSeek V4 或 Kimi K2.6 的直接對照 [
26]。
DeepSeek V4 與 Kimi K2.6:目前不能公平排位
DeepSeek V4 在這批來源中沒有直接 benchmark 數字。最接近的資料是 DeepSeek V3.2:MangoMind 在 2026 年 4 月 coding 推薦中列出 DeepSeek V3.2 的 SWE-bench 為 89.2%,低於 Claude Opus 4.6 的 93.2% 與 GPT-5.4 Pro 的 91.1% [1]。但 DeepSeek V3.2 不是 DeepSeek V4,不能用來推論 V4 是否勝過 Claude Opus 4.7 或 GPT-5.5。
Kimi K2.6 也是同樣情況。Stanford HAI 提到,截至 2026 年 2 月,KimiK2.5 在 SWE-bench Verified 上與多個模型同處 70%–76% 區間 [13]。Siliconflow 則列出 Kimi K2 Thinking:GPQA 為 84.5,SWE Bench 為 71.3 [
6]。這些資料只能說明 Kimi 生態中其他版本的表現,不能當作 Kimi K2.6 的直接證據。
給產品與工程團隊的測試建議
| 如果你的主要需求是…… | 建議先測 | 依據 | 上線前要注意 |
|---|---|---|---|
| 終端機/CLI coding agent | GPT-5.5 | Terminal-Bench 2.0:GPT-5.5 82.7% vs Claude 69.4% [ | 用自己的 shell environment、權限模型與 CI/CD 流程重測。 |
| 自動修 repo | Claude Opus 4.7,再用 GPT-5.5 當對照 | SWE-Bench Pro Public:Claude 64.3% vs GPT-5.5 58.6% [ | 不要和 SWE-bench Verified 分數混用,除非 harness 已對齊 [ |
| MCP 或多工具編排 | Claude Opus 4.7 | MCP Atlas:Claude 79.1% vs GPT-5.5 75.3% [ | 驗證 tool schema、retry logic、access policy 與錯誤恢復。 |
| 瀏覽器/搜尋 agent | GPT-5.5 或 GPT-5.5 Pro | BrowseComp:GPT-5.5 84.4%、GPT-5.5 Pro 90.1%、Claude 79.3% [ | BrowseComp 不等於所有內部研究任務,仍需自建測例。 |
| 金融/專業工作流 | Claude 與 GPT-5.5 都做 split test | Claude 在 FinanceAgent v1.1 領先;GPT-5.5 在 GDPval 與 OfficeQA Pro 領先 [ | MindStudio 提醒,從 finance benchmark 到真正可用的生產工具,差距常在端到端基礎設施,而不只是模型智能 [ |
| 一般科學推理 | 不要只看 GPQA | Vellum 中 Claude 與 GPT-5.5 的 GPQA Diamond 分數非常接近 [ | 用貼近自己領域的 eval,尤其是任務型態與 benchmark 題目不同時。 |
最後的判斷
如果只採用目前可直接 head-to-head 的證據,GPT-5.5 是終端機/CLI agent、瀏覽器搜尋、辦公任務與部分數學 benchmark 的強候選 [5][
2]。Claude Opus 4.7 則是 SWE-Bench Pro Public、MCP/多工具編排與 FinanceAgent v1.1 的強候選 [
5][
2]。
DeepSeek V4 與 Kimi K2.6 暫時不能被公平排在這兩者之前或之後。現有來源提到的是 DeepSeek V3.2、KimiK2.5 與 Kimi K2 Thinking,而不是 DeepSeek V4 或 Kimi K2.6;因此,任何聲稱 DeepSeek V4 或 Kimi K2.6 已經擊敗 Claude Opus 4.7 或 GPT-5.5 的說法,在這批資料中都還缺少直接 benchmark 支撐 [1][
13][
6]。




