如果你正喺度為 coding agent、內部自動化工具或者多模態 workflow 揀模型,最易中伏嘅位係:見到幾個 benchmark 分數,就即刻排一張「總冠軍」。今次 GPT-5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4-Pro 嘅公開資料,來源層級、工具權限、reasoning effort、benchmark harness 都唔完全一致;比較方式應該係任務導向,而唔係一條龍總排名。
暫時較穩陣嘅讀法係:Terminal / CLI workflow 先測 GPT-5.5;SWE-Bench 同視覺、computer-use 先測 Claude Opus 4.7;知識、數學同開放模型路線留意 DeepSeek V4-Pro;如果你已經喺 Cloudflare Workers AI 跑 agent workflow,Kimi K2.6 亦值得放入 shortlist。[27][
4][
1][
5][
64][
36]
Benchmark 快照:數字可以咁睇
下表只列出今次來源入面可引用嘅分數。破折號代表本次資料冇同一欄位嘅可引用數字,唔代表模型能力係零。更重要係,呢啲分數唔係全部來自同一官方 harness,所以適合做初步篩選,唔適合當成絕對 leaderboard。
| 測試或任務 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | 實務解讀 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | 可引用資料入面,GPT-5.5 對 command-line workflow 最突出。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude 暫時最高,但該數字來自次級整理引用 AWS,採用前要自己重跑。 |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claude 最高;但缺少 GPT-5.5 同列可比數字,而且 Verified / Resolved 命名未完全一致。 |
| Graphwalks 256k:BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | OpenAI 長上下文表入面,256k 兩列 Claude Opus 4.7 高過 GPT-5.5。 |
| Graphwalks 1M:BFS / parents | 45.4 / 58.5 [ | — | — | — | OpenAI 表可用嚟睇 GPT-5.5 嘅 1M 長上下文表現;同表 1M 對照欄位標示為 Opus 4.6,唔應用嚟判斷 Opus 4.7。[ |
| 知識與數學 | — | — | — | GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [ | DeepSeek V4-Pro 喺今次資料入面有最完整嘅公開 model card 數值。 |
| 視覺、screenshot、computer-use | — | vision-heavy workload gains;1:1 pixel coordinates;XBOW 視覺敏銳度 98.5% [ | Cloudflare 稱為 native multimodal agentic model,但冇同一視覺 benchmark 分數 [ | — | Claude Opus 4.7 對視覺理解同 UI 操作嘅證據最直接。 |
點解唔應該直接排總榜?
**第一,來源層級唔一致。**GPT-5.5 嘅 Terminal-Bench 2.0 同 SWE-Bench Pro 數字,來自媒體轉述 OpenAI 提供嘅 benchmark 結果;Claude Opus 4.7 嘅 SWE-Bench Pro、SWE-Bench Verified 同 Terminal-Bench 2.0 數字,來自次級整理引用 AWS;Kimi K2.6 同 DeepSeek V4-Pro 部分分數,則來自 Hugging Face model card。[27][
4][
84][
64]
**第二,工具權限會改變賽果。**Mashable 報導嘅 HLE 數字顯示,無工具情境下 Claude Opus 4.7 為 46.9%,GPT-5.4 Pro 為 42.7%;但有工具情境下,GPT-5.4 Pro 為 58.7%,Claude Opus 4.7 為 54.7%。呢組唔係 GPT-5.5 分數,但好清楚話你知:with tools 同 without tools 唔可以混埋同一張榜比較。[6]
**第三,版本同成本設定都會影響解讀。**DeepSeek V4 分為 V4-Pro 同 V4-Flash,Yahoo Finance 報導稱 V4-Flash 係較有效率、經濟嘅版本;本文可引用嘅詳細分數主要對應 DeepSeek-V4-Pro。[57][
64] Artificial Analysis 亦將 GPT-5.5 拆成不同 effort variants,並指 GPT-5.5 xhigh 跑其 Index 嘅成本約比前代高 20%、比 Claude Opus 4.7 max 低 30%。[
24]
GPT-5.5:Terminal workflow 同長上下文係主打
GPT-5.5 喺呢組資料入面最明確嘅強項係 Terminal-Bench 2.0。Yahoo Finance / Investing.com 報導稱,OpenAI 提供嘅 benchmark 結果顯示 GPT-5.5 在 Terminal-Bench 2.0 達 82.7%,該測試用於衡量 command-line workflows;同文亦列出 GPT-5.5 在 SWE-Bench Pro 為 58.6%,並將 SWE-Bench Pro 描述為評估 GitHub issue resolution 嘅測試。[27]
長上下文方面,OpenAI 表列出 GPT-5.5 在 Graphwalks BFS 256k 與 1M 分別為 73.7 與 45.4,在 Graphwalks parents 256k 與 1M 分別為 90.1 與 58.5;同表亦顯示 GPT-5.4 在 Graphwalks BFS 1M 為 9.4,GPT-5.5 則為 45.4。[21]
第三方評測方面,Artificial Analysis 稱 GPT-5.5 是新的 leading AI model,並表示 OpenAI 在其五項 headline evaluations 領先、三項次於 Gemini 3.1 Pro Preview;同文亦稱 GPT-5.5 xhigh 跑其 Index 時,output tokens 約比前代少 40%。[24]
**優先測試場景:**CLI automation、terminal agents、長上下文檢索,以及需要控制 output token 成本嘅 agentic coding workflow。[27][
21][
24]
Claude Opus 4.7:coding 分數強,視覺同 computer-use 證據最硬
Claude Opus 4.7 嘅官方資料,最清楚係強調視覺同 UI 操作。Anthropic API 文件指,相關變更應可釋放 vision-heavy workloads 嘅 performance gains,尤其對 computer use、screenshot、artifact 同 document understanding workflows 重要;文件亦說明座標可 1:1 對應實際像素,減少 scale-factor 計算。[1]
Anthropic launch page 引用 XBOW 嘅視覺敏銳度 benchmark,稱 Claude Opus 4.7 為 98.5%,Opus 4.6 為 54.5%。[5] 所以如果你做緊 screenshot understanding、document layout、desktop UI 操作或者 computer-use agent,Claude Opus 4.7 係四者之中有最直接官方證據支持嘅選項。[
1][
5]
Coding benchmark 方面,一篇整理稱 AWS cites Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、SWE-Bench Verified 為 87.6%、Terminal-Bench 2.0 為 69.4%。[4] 呢啲數字令 Claude 喺本文可引用嘅 SWE-Bench Pro 同 Verified / Resolved 對照中暫時領先;不過來源層級低於直接官方 benchmark 表,正式落 production 前仍然應該用自己 repo 重跑。
亦要留意 production 成本:Anthropic 文件提醒,高解析度影像會使用更多 tokens;如果唔需要額外影像細節,應先降採樣再傳送畀 Claude,以避免 token usage 增加。[1]
**優先測試場景:**GitHub issue repair、coding agent、screenshot / document understanding、computer-use agents,以及需要精準像素座標嘅 UI 操作任務。[1][
4][
5]
Kimi K2.6:Workers AI 上嘅 agentic multimodal 候選
Cloudflare changelog 顯示,Moonshot AI Kimi K2.6 已於 2026 年 4 月 20 日在 Workers AI 上可用,模型 ID 為 @cf/moonshotai/kimi-k2.6,Cloudflare 稱這是與 Moonshot AI 合作嘅 Day 0 support。[36]
同一來源將 Kimi K2.6 描述為 native multimodal agentic model,能力重點包括 long-horizon coding、coding-driven design、proactive autonomous execution 同 swarm-based task orchestration;Cloudflare 亦稱其採用 Mixture-of-Experts 架構,總參數 1T、每 token active 參數 32B。[36]
公開分數方面,Kimi K2.6 嘅 Hugging Face model card 列出 Terminal-Bench 2.0 為 66.7、SWE-Bench Pro 為 58.6、SWE-Bench Multilingual 為 76.7。[84] MarkTechPost 另報導 Kimi K2.6 在 SWE-Bench Verified 為 80.2。[
45]
**優先測試場景:**已經喺 Cloudflare Workers AI 部署、需要 long-horizon coding、coding-driven design、multimodal agent workflow,或者多 agent orchestration 嘅團隊。[36][
84]
DeepSeek V4-Pro:知識、數學同開放模型路線最值得睇
DeepSeek V4 喺來源入面分為 V4-Pro 同 V4-Flash。Yahoo Finance 報導稱,DeepSeek 表示 V4-Pro 在 world knowledge benchmarks 上明顯領先其他 open-source models,且只略遜於頂級閉源模型 Gemini-Pro-3.1;同一報導稱 V4-Flash 係更有效率、經濟嘅選擇。[57]
DeepSeek-V4-Pro 嘅 Hugging Face model card 提供今次資料入面最完整一組 knowledge、math、coding 同 terminal 評測數字:GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified / Resolved 80.6、TerminalBench 2.0 67.9。[64]
CNBC 報導稱 DeepSeek 表示 V4 已針對 Claude Code 同 OpenClaw 等 agent tools 最佳化;Counterpoint principal AI analyst Wei Sun 則認為,V4 嘅 benchmark profile 顯示它可能以顯著更低成本提供出色 agent 能力。[58]
**優先測試場景:**重視開放模型路線、知識與數學 benchmark、agent tooling 成本效益,或者想喺本地 / 自管環境評估可下載模型嘅團隊。[58][
64]
按任務揀:最實用 shortlist
- **Terminal automation / command-line agents:先測 GPT-5.5。**可引用資料中,GPT-5.5 Terminal-Bench 2.0 為 82.7%,高於 Claude Opus 4.7 的 69.4%、DeepSeek V4-Pro 的 67.9 同 Kimi K2.6 的 66.7。[
27][
4][
64][
84]
- **Software engineering repair / SWE-Bench Pro 類任務:先測 Claude Opus 4.7,但一定要跑自己 repo。**可引用分數中,Claude Opus 4.7 為 64.3%,GPT-5.5 同 Kimi K2.6 同為 58.6,DeepSeek V4-Pro 為 55.4;但 Claude 數字來源層級較低。[
4][
27][
84][
64]
- **Screenshot、document understanding、computer-use:Claude Opus 4.7 優先。**Anthropic 文件直接提到 vision-heavy workflows、computer use 同 1:1 pixel coordinates,Anthropic launch page 亦引用 XBOW 98.5% 視覺敏銳度結果。[
1][
5]
- **Knowledge / math 同開放模型路線:DeepSeek V4-Pro 優先納入 shortlist。**它的 Hugging Face model card 同時列出 GPQA Diamond、GSM8K、HLE、MMLU-Pro、SWE-Bench 同 TerminalBench 2.0 等分數。[
64]
- **Workers AI 上嘅 multimodal agentic workflow:Kimi K2.6 值得測。**Cloudflare 已提供 Kimi K2.6 的 Workers AI Day 0 support,並將其定位為 long-horizon coding 與 swarm-based task orchestration 的 native multimodal agentic model。[
36]
採用前:用同一套條件重跑,先有得 defend
如果你要一個可以喺內部會議 defend 到嘅結論,唔好只截幾張 leaderboard 圖。最少要控制以下條件:同一模型版本或 API model ID、同一上下文長度、同一工具權限、同一 reasoning effort、同一 temperature、同一 token budget、同一 scoring harness。工具權限尤其唔可以混用,因為 HLE 報導已經顯示 with tools 同 without tools 會改變相對結果。[6]
成本亦要同能力一齊量。Artificial Analysis 報導稱 GPT-5.5 xhigh 跑其 Index 嘅成本約比前代高 20%、比 Claude Opus 4.7 max 低 30%,而 output tokens 約比前代少 40%;Anthropic 文件則提醒,高解析度影像會使用更多 tokens。[24][
1] 對 production agent 嚟講,速度、token 使用量、工具調用成功率、錯誤修復率,通常同單一 benchmark 分數一樣重要。
底線
目前最可信嘅比較,唔係「邊個係總冠軍」,而係「邊個先應該入你呢個任務嘅 shortlist」:Terminal-Bench 看 GPT-5.5,SWE-Bench 同視覺 / computer-use 看 Claude Opus 4.7,知識與數學 model card 看 DeepSeek V4-Pro,Workers AI 上嘅 multimodal agentic coding 就把 Kimi K2.6 放入候選清單。[27][
4][
1][
5][
64][
36]
等到四款模型都有同一 harness、同一工具設定、同一版本條件下嘅完整共同分數,先適合排出真正嘅總榜。




