2026 年睇 AI benchmark,最易中伏嘅位係:四個模型名放埋同一張排行榜,好似就可以排座次,但其實未必係同一個 benchmark、同一個版本、同一套測試設定。根據目前提供嘅來源,最穩陣嘅比較係 Claude Opus 4.7 對 GPT-5.5,因為兩者同時出現在 OpenAI 同 Vellum 嘅同類 benchmark 表入面 [5][
2]。
DeepSeek V4 同 Kimi K2.6 就唔同:目前資料未見到佢哋同 Claude Opus 4.7、GPT-5.5 直接對打嘅分數。最接近嘅資料其實係 DeepSeek V3.2、KimiK2.5 同 Kimi K2 Thinking,版本唔同,唔應該硬比較 [1][
13][
6]。
先講結論
- GPT-5.5:喺現有數據入面,terminal/CLI agent、office/professional tasks、browser/search,以及部分數學 eval 較突出 [
5][
2]。
- Claude Opus 4.7:喺 SWE-Bench Pro Public、MCP/tool orchestration,以及 FinanceAgent v1.1 較突出 [
5][
2]。
- DeepSeek V4、Kimi K2.6:暫時未有足夠直接分數,唔適合公平排位;現有資料只可當作相關模型家族背景,而唔係 V4 或 K2.6 嘅證據 [
1][
13][
6]。
真正可比嘅 head-to-head 數字
以下只列 Claude Opus 4.7 同 GPT-5.5 出現在同一 benchmark 嘅數字。GPT-5.5 Pro 只喺來源有分開列出時先提 [2]。
| 產品/團隊需要 | Benchmark | 報告分數 | 點樣解讀 |
|---|---|---|---|
| Coding repair | SWE-Bench Pro Public | Claude Opus 4.7 64.3% vs GPT-5.5 58.6% [ | Claude 喺呢個測試領先。 |
| Terminal/CLI agent | Terminal-Bench 2.0 | GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [ | GPT-5.5 喺 terminal 類測試領先最明顯。 |
| Professional work | GDPval;OfficeQA Pro | GPT-5.5 84.9% vs Claude 80.3% 喺 GDPval;GPT-5.5 54.1% vs Claude 43.6% 喺 OfficeQA Pro [ | GPT-5.5 喺呢兩個專業工作指標較強。 |
| Finance agent | FinanceAgent v1.1 | Claude 64.4% vs GPT-5.5 60.0% [ | Claude 喺呢個 finance agent eval 領先。 |
| Computer/browser tasks | OSWorld-Verified;BrowseComp | GPT-5.5 78.7% vs Claude 78.0% 喺 OSWorld;GPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% 喺 BrowseComp [ | OSWorld 幾乎平手;BrowseComp 就 GPT-5.5 較高。 |
| Tool orchestration | MCP Atlas | Claude 79.1% vs GPT-5.5 75.3% [ | Claude 喺 tool-heavy/MCP 場景較強。 |
| Science 同 math reasoning | GPQA Diamond;FrontierMath T1–3 | Claude 94.2% vs GPT-5.5 93.6% 喺 GPQA;GPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% 喺 FrontierMath [ | GPQA 差距好窄;FrontierMath 就 GPT-5.5 較高。 |
三個最容易睇錯 benchmark 嘅位
1. SWE-Bench Pro Public 唔等於 SWE-bench Verified
OpenAI 喺 GPT-5.5 對 Claude Opus 4.7 嘅表入面用嘅係 SWE-Bench Pro Public [5]。呢個唔等於 SWE-bench Verified。BenchLM 將 SWE-bench Verified 解釋為 SWE-bench 入面經人手驗證嘅 subset,用嚟測試模型處理真實 GitHub issue,涉及 Django、Flask、scikit-learn 等常見 Python repository [
21]。
所以,Claude 喺 SWE-Bench Pro Public 嘅 64.3%,唔可以直接拎去同其他 leaderboard 上 Claude 喺 SWE-bench Verified 嘅分數相比 [5][
21]。要比較,最少要先對齊 benchmark 名、測試 harness、測試日期同模型設定。
2. GPQA Diamond 對 frontier model 已經唔夠分得開
Vellum 列出 Claude Opus 4.7 喺 GPQA Diamond 係 94.2%,GPT-5.5 係 93.6% [2]。The Next Web 亦提到 Claude Opus 4.7 94.2%、GPT-5.4 Pro 94.4%、Gemini 3.1 Pro 94.3%,並指呢類 frontier model 之間嘅差距已經落入 noise 範圍 [
17]。
換句話講,GPQA 可以作為一般 reasoning 訊號,但如果你要為 production 選模型,唔應該單靠 GPQA 一個分數定生死。
3. 第三方 leaderboard 有出入,唔代表一定有人錯
就算同樣講 SWE-bench Verified,Claude Opus 4.7 嘅數字都唔完全一致。BenchLM 報告 Claude Opus 4.7 Adaptive 喺 2026 年 4 月 24 日為 87.6% [21];LLM Stats 亦列出 87.6% [
18]。但 LM Council 顯示 Claude Opus 4.7 max 為 83.5% ±1.7 [
10],MindStudio 則寫 82.4% [
14]。
呢啲差異未必係邊個錯。常見原因包括模型設定、eval harness、測試日期、retry 規則、reasoning mode 或 leaderboard 計分方法唔同。對工程團隊嚟講,公開 benchmark 最好當作 shortlist 起點,而唔係代替自己 repository、CI、tooling workflow 嘅內部評估。
Claude Opus 4.7:repo repair 同 multi-tool workflow 值得優先試
Claude Opus 4.7 最明顯嘅訊號,係 coding repair 同多工具 agent。喺 OpenAI 表入面,Claude 喺 SWE-Bench Pro Public 以 64.3% 對 GPT-5.5 58.6% 領先;喺 FinanceAgent v1.1 亦以 64.4% 對 60.0% 領先 [5]。Vellum 亦報告 Claude 喺 MCP Atlas 以 79.1% 對 GPT-5.5 75.3% 領先 [
2]。
Anthropic 自己嘅 Claude Opus 4.7 launch note 亦引用 partner eval:Hebbia 表示喺 orchestrator agents 入面,tool calls 準確度同 planning 有雙位數提升;Rakuten-SWE-Bench 則指 Opus 4.7 比 Opus 4.6 解決多 3 倍 production tasks,Code Quality 同 Test Quality 都有雙位數增長 [19]。呢啲係有用嘅產品訊號,但始終同你公司內部 workload 嘅獨立測試係兩回事。
實際建議係:如果你主要做 autonomous repo repair、MCP,或者長鏈條 multi-tool workflow,Claude Opus 4.7 值得放喺第一批測試名單。不過,最後仍然要用你自己嘅 test suite、permission model、tool schema 同 tool-call pattern 驗證。
GPT-5.5:terminal、browser/search、office 同 math 數據最亮眼
GPT-5.5 最清晰嘅優勢係 Terminal-Bench 2.0。OpenAI 報告 GPT-5.5 達到 82.7%,高過 Claude Opus 4.7 嘅 69.4% 同 Gemini 3.1 Pro 嘅 68.5% [5]。同一張表入面,GPT-5.5 喺 GDPval wins/ties 亦以 84.9% 對 Claude 80.3% 領先,OfficeQA Pro 則係 54.1% 對 43.6% [
5]。
Vellum 補充咗 computer-use、search 同 reasoning 嘅視角:GPT-5.5 喺 OSWorld-Verified 以 78.7% 對 Claude 78.0% 微微領先;BrowseComp 係 84.4% 對 79.3%;FrontierMath T1–3 係 51.7% 對 43.8% [2]。BrowseComp 方面,Vellum 亦列出 GPT-5.5 Pro 為 90.1% [
2]。
Coding 方面就冇咁單線。GPT-5.5 喺 Terminal-Bench 2.0 好強,但喺 OpenAI 表嘅 SWE-Bench Pro Public 就落後 Claude Opus 4.7 [5]。OpenAI System Card 亦介紹 GPT-5.5 嘅 CoT-Control 評估,當中包括超過 13,000 個 task,來源涵蓋 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等 benchmark [
26]。不過,呢份資料冇提供 GPT-5.5 同 DeepSeek V4 或 Kimi K2.6 嘅直接比較 [
26]。
DeepSeek V4 同 Kimi K2.6:暫時未夠料公平排位
DeepSeek V4 方面,現有來源未提供直接 benchmark 分數。最接近嘅資料係 DeepSeek V3.2:MangoMind 喺 2026 年 4 月 coding 推薦入面列出 DeepSeek V3.2 為 89.2% SWE-bench,低過 Claude Opus 4.6 嘅 93.2% 同 GPT-5.4 Pro 嘅 91.1% [1]。但 DeepSeek V3.2 唔等於 DeepSeek V4,唔可以用嚟推論 V4 表現。
Kimi K2.6 亦係同樣情況。Stanford HAI 提到,截至 2026 年 2 月,KimiK2.5 喺 SWE-bench Verified 屬於 70%–76% 呢一組模型之內 [13]。Siliconflow 則列出 Kimi K2 Thinking:GPQA 84.5、SWE Bench 71.3 [
6]。但兩者都唔係 Kimi K2.6,只能作為 Kimi 生態背景,唔係 K2.6 嘅直接 benchmark 證據。
產品團隊可以點排測試順序?
| 如果你最重視… | 建議優先測試 | 證據基礎 | 要留意 |
|---|---|---|---|
| Terminal/CLI coding agent | GPT-5.5 | Terminal-Bench 2.0:GPT-5.5 82.7% vs Claude 69.4% [ | 要喺自己嘅 shell environment、permission model、CI/CD 流程重測。 |
| Autonomous repo repair | Claude Opus 4.7,再用 GPT-5.5 做對照 | SWE-Bench Pro Public:Claude 64.3% vs GPT-5.5 58.6% [ | 唔好未對齊 harness 就同 SWE-bench Verified 混埋比較 [ |
| MCP 或 multi-tool orchestration | Claude Opus 4.7 | MCP Atlas:Claude 79.1% vs GPT-5.5 75.3% [ | 要用自己嘅 tool schema、retry logic、access policy 驗證。 |
| Browser/search agent | GPT-5.5 或 GPT-5.5 Pro | BrowseComp:GPT-5.5 84.4%、GPT-5.5 Pro 90.1%、Claude 79.3% [ | BrowseComp 唔等於所有內部 research workflow。 |
| Finance/professional workflow | Claude 同 GPT-5.5 都要 split test | Claude 喺 FinanceAgent v1.1 領先;GPT-5.5 喺 GDPval、OfficeQA Pro 領先 [ | MindStudio 提醒,finance benchmark 分數到真正可部署工具之間,差距好多時係 end-to-end infrastructure,而唔只係 model intelligence [ |
| 一般科學 reasoning | 唔好只靠 GPQA 揀模型 | Vellum 入面 Claude 同 GPT-5.5 嘅 GPQA Diamond 分數非常接近 [ | 最好用你自己 domain-specific eval,尤其任務同 benchmark 題型唔同時。 |
最後結論
如果只睇目前可直接 head-to-head 嘅證據,GPT-5.5 係 terminal/CLI agent、browser/search、office tasks 同部分數學 benchmark 嘅強候選 [5][
2]。Claude Opus 4.7 則係 SWE-Bench Pro Public、MCP/tool orchestration 同 FinanceAgent v1.1 嘅強候選 [
5][
2]。
DeepSeek V4 同 Kimi K2.6 暫時唔適合同兩者公平排位。現有資料講嘅係其他版本:DeepSeek V3.2、KimiK2.5 同 Kimi K2 Thinking;因此,話 DeepSeek V4 或 Kimi K2.6 已經贏過 Claude Opus 4.7 或 GPT-5.5,喺呢批來源入面未有直接 benchmark 分數支持 [1][
13][
6]。




