把 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4 放在同一張表時,最容易犯的錯是把不同來源、不同工具權限、不同 effort 設定的分數當成同一個排行榜。現有資料更適合用來做任務導向選型:Terminal/CLI workflow 優先看 GPT-5.5;SWE-Bench 與視覺、computer-use 任務優先看 Claude Opus 4.7;知識與數學、開放模型路線看 DeepSeek V4-Pro;Cloudflare Workers AI 上的多模態 agent workflow 則把 Kimi K2.6 放進 shortlist。[27][
4][
1][
5][
64][
36]
Benchmark 快照:可引用分數怎麼看
下表只整理目前來源中可以引用的數字。破折號代表本次來源沒有同一欄位的可引用分數,不代表模型能力為零。更重要的是,這些分數並非全部來自同一官方 harness,因此適合做初步篩選,不適合當作絕對 leaderboard。
| 測試或任務 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | 實務解讀 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | 可引用資料中,GPT-5.5 對 command-line workflow 最突出。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude 暫居可引用分數第一,但該數字來自次級整理引用 AWS。 |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claude 最高;但缺少 GPT-5.5 同列可比數字,且來源命名不完全一致。 |
| Graphwalks 256k:BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | 在 OpenAI 長上下文表的 256k 兩列中,Claude Opus 4.7 高於 GPT-5.5。 |
| Graphwalks 1M:BFS / parents | 45.4 / 58.5 [ | — | — | — | OpenAI 表可說明 GPT-5.5 的 1M 長上下文表現;同表 1M 對照欄位標示為 Opus 4.6,不宜拿來判定 Opus 4.7。 |
| 知識與數學 | — | — | — | GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [ | DeepSeek V4-Pro 在本次來源中有最完整的公開模型卡數值。 |
| 視覺、screenshot、computer-use | — | vision-heavy workload gains;1:1 pixel coordinates;XBOW 視覺敏銳度 98.5% [ | Cloudflare 描述為 native multimodal agentic model,但無同一視覺 benchmark 分數 [ | — | Claude Opus 4.7 的視覺與 UI 操作證據最硬。 |
為什麼不能直接排總榜?
第一,來源層級不一致。GPT-5.5 的 Terminal-Bench 2.0 與 SWE-Bench Pro 數字來自媒體轉述 OpenAI 提供的 benchmark 結果;Claude Opus 4.7 的 SWE-Bench Pro、SWE-Bench Verified 與 Terminal-Bench 2.0 數字來自次級整理引用 AWS;Kimi K2.6 與 DeepSeek V4-Pro 的部分分數則來自 Hugging Face model card。[27][
4][
84][
64]
第二,工具權限會改變相對結果。Mashable 報導的 HLE 數字顯示,無工具情境下 Claude Opus 4.7 為 46.9%,GPT-5.4 Pro 為 42.7%;但在有工具情境下,GPT-5.4 Pro 為 58.7%,Claude Opus 4.7 為 54.7%。這不是 GPT-5.5 的分數,卻清楚說明 with tools 與 without tools 不能混在同一榜單比較。[6]
第三,版本與成本設定也會影響解讀。DeepSeek V4 分成 V4-Pro 與 V4-Flash,Yahoo Finance 報導稱 V4-Flash 是較有效率、經濟的版本;本文可引用的詳細分數主要對應 DeepSeek-V4-Pro。[57][
64] Artificial Analysis 也把 GPT-5.5 拆成不同 effort variants,並指出 GPT-5.5 xhigh 跑其 Index 的成本約比前代高 20%、比 Claude Opus 4.7 max 低 30%。[
24]
GPT-5.5:Terminal workflow 與長上下文是主要亮點
GPT-5.5 在這組資料中最明確的強項是 Terminal-Bench 2.0。Yahoo Finance / Investing.com 報導稱,OpenAI 提供的 benchmark 結果顯示 GPT-5.5 在 Terminal-Bench 2.0 達到 82.7%,該測試用於衡量 command-line workflows;同文也列出 GPT-5.5 在 SWE-Bench Pro 為 58.6%,並將 SWE-Bench Pro 描述為評估 GitHub issue resolution 的測試。[27]
OpenAI 的長上下文表也提供較細的數字:GPT-5.5 在 Graphwalks BFS 256k 與 1M 分別為 73.7 與 45.4,在 Graphwalks parents 256k 與 1M 分別為 90.1 與 58.5;同表顯示 GPT-5.4 在 Graphwalks BFS 1M 為 9.4,GPT-5.5 則為 45.4。[21]
第三方評測方面,Artificial Analysis 稱 GPT-5.5 是新的 leading AI model,並表示 OpenAI 在其五項 headline evaluations 領先、三項次於 Gemini 3.1 Pro Preview;同文也稱 GPT-5.5 xhigh 使用約比前代少 40% 的 output tokens 跑其 Index。[24]
**適合優先測的場景:**CLI automation、terminal agents、長上下文檢索與需要控制 output token 成本的 agentic coding workflow。[27][
21][
24]
Claude Opus 4.7:coding 分數強,視覺與 computer-use 證據最完整
Claude Opus 4.7 的官方資料最明確強調視覺與 UI 操作。Anthropic API 文件表示,這項變更應能釋放 vision-heavy workloads 的 performance gains,尤其對 computer use、screenshot、artifact 與 document understanding workflows 重要;文件也說明座標可 1:1 對應實際像素,減少 scale-factor 計算。[1]
Anthropic launch page 引用 XBOW 的視覺敏銳度 benchmark,稱 Claude Opus 4.7 為 98.5%,Opus 4.6 為 54.5%。[5] 這讓 Claude Opus 4.7 在 screenshot understanding、document layout、desktop UI 操作與 computer-use agent 這類任務上有比其他三者更直接的官方證據。[
1][
5]
在 coding benchmark 方面,一篇整理稱 AWS cites Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、SWE-Bench Verified 為 87.6%、Terminal-Bench 2.0 為 69.4%。[4] 這些數字讓 Claude 在本文可引用的 SWE-Bench Pro 與 Verified/Resolved 對照中暫時領先,但來源層級低於直接官方 benchmark 表,正式採用前仍應用自家 repo 重跑。
還有一個 production caveat:Anthropic 文件提醒,高解析度影像會使用更多 tokens;若不需要額外影像細節,應在傳送給 Claude 前先降採樣,以避免 token usage 增加。[1]
**適合優先測的場景:**GitHub issue repair、coding agent、screenshot/document understanding、computer-use agents,以及需要精準像素座標的 UI 操作任務。[1][
4][
5]
Kimi K2.6:Workers AI 上的 agentic multimodal 候選
Cloudflare changelog 顯示,Moonshot AI Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用,模型 ID 為 @cf/moonshotai/kimi-k2.6,且 Cloudflare 稱這是與 Moonshot AI 合作的 Day 0 support。[36]
同一來源把 Kimi K2.6 描述為 native multimodal agentic model,能力重點包括 long-horizon coding、coding-driven design、proactive autonomous execution 與 swarm-based task orchestration;Cloudflare 也稱其採用 Mixture-of-Experts 架構,總參數 1T、每 token active 參數 32B。[36]
公開分數方面,Kimi K2.6 的 Hugging Face model card 列出 Terminal-Bench 2.0 為 66.7、SWE-Bench Pro 為 58.6、SWE-Bench Multilingual 為 76.7。[84] MarkTechPost 另報導 Kimi K2.6 在 SWE-Bench Verified 為 80.2。[
45]
**適合優先測的場景:**已在 Cloudflare Workers AI 上部署、需要 long-horizon coding、coding-driven design、multimodal agent workflow 或多 agent orchestration 的團隊。[36][
84]
DeepSeek V4-Pro:知識與數學分數最完整,開放模型敘事清楚
DeepSeek V4 在來源中分為 V4-Pro 與 V4-Flash。Yahoo Finance 報導稱,DeepSeek 表示 V4-Pro 在 world knowledge benchmarks 上明顯領先其他 open-source models,且只略遜於頂級閉源模型 Gemini-Pro-3.1;同一報導稱 V4-Flash 是更有效率、經濟的選擇。[57]
DeepSeek-V4-Pro 的 Hugging Face model card 提供了本文最完整的一組 knowledge、math、coding 與 terminal 評測數字:GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified/Resolved 80.6、TerminalBench 2.0 67.9。[64]
CNBC 報導稱 DeepSeek 表示 V4 已針對 Claude Code 與 OpenClaw 等 agent tools 最佳化;Counterpoint principal AI analyst Wei Sun 則認為,V4 的 benchmark profile 顯示它可能以顯著更低成本提供出色 agent 能力。[58]
**適合優先測的場景:**重視開放模型路線、知識與數學 benchmark、agent tooling 成本效益,或希望在本地/自管環境中評估可下載模型的團隊。[58][
64]
按任務選模型:最實用的 shortlist
- **Terminal automation / command-line agents:先測 GPT-5.5。**可引用資料中,GPT-5.5 Terminal-Bench 2.0 為 82.7%,高於 Claude Opus 4.7 的 69.4%、DeepSeek V4-Pro 的 67.9 與 Kimi K2.6 的 66.7。[
27][
4][
64][
84]
- **Software engineering repair / SWE-Bench Pro 類任務:先測 Claude Opus 4.7,但一定要跑自家 repo。**可引用分數中,Claude Opus 4.7 為 64.3%,GPT-5.5 與 Kimi K2.6 同為 58.6,DeepSeek V4-Pro 為 55.4;但 Claude 數字來源層級較低。[
4][
27][
84][
64]
- **Screenshot、document understanding、computer-use:Claude Opus 4.7 優先。**Anthropic 文件直接提到 vision-heavy workflows、computer use 與 1:1 pixel coordinates,Anthropic launch page 也引用 XBOW 98.5% 視覺敏銳度結果。[
1][
5]
- **Knowledge/math 與開放模型路線:DeepSeek V4-Pro 優先納入 shortlist。**它的 Hugging Face model card 同時列出 GPQA Diamond、GSM8K、HLE、MMLU-Pro、SWE-Bench 與 TerminalBench 2.0 等分數。[
64]
- **Workers AI 上的 multimodal agentic workflow:Kimi K2.6 值得測。**Cloudflare 已提供 Kimi K2.6 的 Workers AI Day 0 support,並將其定位為 long-horizon coding 與 swarm-based task orchestration 的 native multimodal agentic model。[
36]
採用前,請用同一套條件重跑
要得到能 defend 的內部結論,應使用同一模型版本或 API model ID、同一上下文長度、同一工具權限、同一 reasoning effort、同一 temperature、同一 token budget 與同一 scoring harness。工具權限尤其不能混用,因為 HLE 報導已顯示 with tools 與 without tools 會改變相對結果。[6]
成本也要和能力一起測。Artificial Analysis 報導稱 GPT-5.5 xhigh 跑其 Index 的成本約比前代高 20%、比 Claude Opus 4.7 max 低 30%,且 output tokens 比前代少約 40%;Anthropic 文件則提醒,高解析度影像會使用更多 tokens。[24][
1] 對 production agent 來說,速度、token 使用量、工具調用成功率與錯誤修復率通常和單一 benchmark 分數一樣重要。
底線
目前最可信的比較不是單一總排名,而是任務導向:Terminal-Bench 看 GPT-5.5,SWE-Bench 與視覺/computer-use 看 Claude Opus 4.7,知識與數學模型卡看 DeepSeek V4-Pro,Workers AI 上的 multimodal agentic coding 則把 Kimi K2.6 放進候選清單。[27][
4][
1][
5][
64][
36] 等到四款模型在同一 harness、同一工具設定與同一版本條件下都有完整共同分數,才適合排出真正的總榜。




