目前沒有足夠公開資料可公平排出單一總冠軍;可引用數據顯示 GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude Opus 4.7 在 SWE Bench Pro 為 64.3%,但後者來自次級整理引用 AWS,且不同來源與工具設定不能混成絕對榜單。[27][4] 視覺、screenshot、document understanding 與 computer use 任務,Claude Opus 4.7 的官方證據最強:Anthropic 文件提到 vision heavy workflow gains 與 1:1 pixel coordinates,launch page 引用 XBOW 98...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較. Article summary: 目前不能公平選出單一總冠軍;四款模型缺少同一評測 harness、同一工具設定下的完整共同分數。可引用資料中,GPT 5.5 以 82.7% 領先 Terminal Bench 2.0,Claude Opus 4.7 以 64.3% 暫居 SWE Bench Pro 第一,但 Claude 數字來自次級整理引用 AWS。[27][4]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different futures for AI" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal thr
把 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4 放在同一張表時,最容易犯的錯是把不同來源、不同工具權限、不同 effort 設定的分數當成同一個排行榜。現有資料更適合用來做任務導向選型:Terminal/CLI workflow 優先看 GPT-5.5;SWE-Bench 與視覺、computer-use 任務優先看 Claude Opus 4.7;知識與數學、開放模型路線看 DeepSeek V4-Pro;Cloudflare Workers AI 上的多模態 agent workflow 則把 Kimi K2.6 放進 shortlist。[27][
4][
1][
5][
64][
36]
下表只整理目前來源中可以引用的數字。破折號代表本次來源沒有同一欄位的可引用分數,不代表模型能力為零。更重要的是,這些分數並非全部來自同一官方 harness,因此適合做初步篩選,不適合當作絕對 leaderboard。
| 測試或任務 | GPT-5.5 |
|---|
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
目前沒有足夠公開資料可公平排出單一總冠軍;可引用數據顯示 GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude Opus 4.7 在 SWE Bench Pro 為 64.3%,但後者來自次級整理引用 AWS,且不同來源與工具設定不能混成絕對榜單。[27][4]
目前沒有足夠公開資料可公平排出單一總冠軍;可引用數據顯示 GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude Opus 4.7 在 SWE Bench Pro 為 64.3%,但後者來自次級整理引用 AWS,且不同來源與工具設定不能混成絕對榜單。[27][4] 視覺、screenshot、document understanding 與 computer use 任務,Claude Opus 4.7 的官方證據最強:Anthropic 文件提到 vision heavy workflow gains 與 1:1 pixel coordinates,launch page 引用 XBOW 98.5% 視覺敏銳度結果。[1][5]
DeepSeek V4 Pro 的 Hugging Face model card 提供 GPQA、GSM8K、MMLU Pro、HLE 等完整知識/數學分數;Kimi K2.6 則以 Workers AI 可用性與 agentic multimodal workflow 定位突出。[64][36]
繼續閱讀「香港警務考試溫習指南:ICAC、警權與問責三條主線」,從另一個角度查看更多引用來源。
Open related page將這個答案與「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」交叉比對。
Open related pageWhat's new in Claude Opus 4.7 - Claude API Docs Loading... . This change should unlock performance gains on vision-heavy workloads, and is particularly important for computer use and screenshot/artifact/document understanding workflows. Additionally, operat...
For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...
Image 22: logo Claude Opus 4.7 feels like a real step up in intelligence. Code quality is noticeably improved, it’s cutting out the meaningless wrapper functions and fallback scaffolding that used to pile up, and fixes its own code as it goes. It’s the clea...
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
| Claude Opus 4.7 |
|---|
| Kimi K2.6 |
|---|
| DeepSeek V4-Pro |
|---|
| 實務解讀 |
|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | 可引用資料中,GPT-5.5 對 command-line workflow 最突出。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude 暫居可引用分數第一,但該數字來自次級整理引用 AWS。 |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claude 最高;但缺少 GPT-5.5 同列可比數字,且來源命名不完全一致。 |
| Graphwalks 256k:BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | 在 OpenAI 長上下文表的 256k 兩列中,Claude Opus 4.7 高於 GPT-5.5。 |
| Graphwalks 1M:BFS / parents | 45.4 / 58.5 [ | — | — | — | OpenAI 表可說明 GPT-5.5 的 1M 長上下文表現;同表 1M 對照欄位標示為 Opus 4.6,不宜拿來判定 Opus 4.7。 |
| 知識與數學 | — | — | — | GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [ | DeepSeek V4-Pro 在本次來源中有最完整的公開模型卡數值。 |
| 視覺、screenshot、computer-use | — | vision-heavy workload gains;1:1 pixel coordinates;XBOW 視覺敏銳度 98.5% [ | Cloudflare 描述為 native multimodal agentic model,但無同一視覺 benchmark 分數 [ | — | Claude Opus 4.7 的視覺與 UI 操作證據最硬。 |
第一,來源層級不一致。GPT-5.5 的 Terminal-Bench 2.0 與 SWE-Bench Pro 數字來自媒體轉述 OpenAI 提供的 benchmark 結果;Claude Opus 4.7 的 SWE-Bench Pro、SWE-Bench Verified 與 Terminal-Bench 2.0 數字來自次級整理引用 AWS;Kimi K2.6 與 DeepSeek V4-Pro 的部分分數則來自 Hugging Face model card。[27][
4][
84][
64]
第二,工具權限會改變相對結果。Mashable 報導的 HLE 數字顯示,無工具情境下 Claude Opus 4.7 為 46.9%,GPT-5.4 Pro 為 42.7%;但在有工具情境下,GPT-5.4 Pro 為 58.7%,Claude Opus 4.7 為 54.7%。這不是 GPT-5.5 的分數,卻清楚說明 with tools 與 without tools 不能混在同一榜單比較。[6]
第三,版本與成本設定也會影響解讀。DeepSeek V4 分成 V4-Pro 與 V4-Flash,Yahoo Finance 報導稱 V4-Flash 是較有效率、經濟的版本;本文可引用的詳細分數主要對應 DeepSeek-V4-Pro。[57][
64] Artificial Analysis 也把 GPT-5.5 拆成不同 effort variants,並指出 GPT-5.5 xhigh 跑其 Index 的成本約比前代高 20%、比 Claude Opus 4.7 max 低 30%。[
24]
GPT-5.5 在這組資料中最明確的強項是 Terminal-Bench 2.0。Yahoo Finance / Investing.com 報導稱,OpenAI 提供的 benchmark 結果顯示 GPT-5.5 在 Terminal-Bench 2.0 達到 82.7%,該測試用於衡量 command-line workflows;同文也列出 GPT-5.5 在 SWE-Bench Pro 為 58.6%,並將 SWE-Bench Pro 描述為評估 GitHub issue resolution 的測試。[27]
OpenAI 的長上下文表也提供較細的數字:GPT-5.5 在 Graphwalks BFS 256k 與 1M 分別為 73.7 與 45.4,在 Graphwalks parents 256k 與 1M 分別為 90.1 與 58.5;同表顯示 GPT-5.4 在 Graphwalks BFS 1M 為 9.4,GPT-5.5 則為 45.4。[21]
第三方評測方面,Artificial Analysis 稱 GPT-5.5 是新的 leading AI model,並表示 OpenAI 在其五項 headline evaluations 領先、三項次於 Gemini 3.1 Pro Preview;同文也稱 GPT-5.5 xhigh 使用約比前代少 40% 的 output tokens 跑其 Index。[24]
**適合優先測的場景:**CLI automation、terminal agents、長上下文檢索與需要控制 output token 成本的 agentic coding workflow。[27][
21][
24]
Claude Opus 4.7 的官方資料最明確強調視覺與 UI 操作。Anthropic API 文件表示,這項變更應能釋放 vision-heavy workloads 的 performance gains,尤其對 computer use、screenshot、artifact 與 document understanding workflows 重要;文件也說明座標可 1:1 對應實際像素,減少 scale-factor 計算。[1]
Anthropic launch page 引用 XBOW 的視覺敏銳度 benchmark,稱 Claude Opus 4.7 為 98.5%,Opus 4.6 為 54.5%。[5] 這讓 Claude Opus 4.7 在 screenshot understanding、document layout、desktop UI 操作與 computer-use agent 這類任務上有比其他三者更直接的官方證據。[
1][
5]
在 coding benchmark 方面,一篇整理稱 AWS cites Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、SWE-Bench Verified 為 87.6%、Terminal-Bench 2.0 為 69.4%。[4] 這些數字讓 Claude 在本文可引用的 SWE-Bench Pro 與 Verified/Resolved 對照中暫時領先,但來源層級低於直接官方 benchmark 表,正式採用前仍應用自家 repo 重跑。
還有一個 production caveat:Anthropic 文件提醒,高解析度影像會使用更多 tokens;若不需要額外影像細節,應在傳送給 Claude 前先降採樣,以避免 token usage 增加。[1]
**適合優先測的場景:**GitHub issue repair、coding agent、screenshot/document understanding、computer-use agents,以及需要精準像素座標的 UI 操作任務。[1][
4][
5]
Cloudflare changelog 顯示,Moonshot AI Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用,模型 ID 為 @cf/moonshotai/kimi-k2.6,且 Cloudflare 稱這是與 Moonshot AI 合作的 Day 0 support。[36]
同一來源把 Kimi K2.6 描述為 native multimodal agentic model,能力重點包括 long-horizon coding、coding-driven design、proactive autonomous execution 與 swarm-based task orchestration;Cloudflare 也稱其採用 Mixture-of-Experts 架構,總參數 1T、每 token active 參數 32B。[36]
公開分數方面,Kimi K2.6 的 Hugging Face model card 列出 Terminal-Bench 2.0 為 66.7、SWE-Bench Pro 為 58.6、SWE-Bench Multilingual 為 76.7。[84] MarkTechPost 另報導 Kimi K2.6 在 SWE-Bench Verified 為 80.2。[
45]
**適合優先測的場景:**已在 Cloudflare Workers AI 上部署、需要 long-horizon coding、coding-driven design、multimodal agent workflow 或多 agent orchestration 的團隊。[36][
84]
DeepSeek V4 在來源中分為 V4-Pro 與 V4-Flash。Yahoo Finance 報導稱,DeepSeek 表示 V4-Pro 在 world knowledge benchmarks 上明顯領先其他 open-source models,且只略遜於頂級閉源模型 Gemini-Pro-3.1;同一報導稱 V4-Flash 是更有效率、經濟的選擇。[57]
DeepSeek-V4-Pro 的 Hugging Face model card 提供了本文最完整的一組 knowledge、math、coding 與 terminal 評測數字:GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified/Resolved 80.6、TerminalBench 2.0 67.9。[64]
CNBC 報導稱 DeepSeek 表示 V4 已針對 Claude Code 與 OpenClaw 等 agent tools 最佳化;Counterpoint principal AI analyst Wei Sun 則認為,V4 的 benchmark profile 顯示它可能以顯著更低成本提供出色 agent 能力。[58]
要得到能 defend 的內部結論,應使用同一模型版本或 API model ID、同一上下文長度、同一工具權限、同一 reasoning effort、同一 temperature、同一 token budget 與同一 scoring harness。工具權限尤其不能混用,因為 HLE 報導已顯示 with tools 與 without tools 會改變相對結果。[6]
成本也要和能力一起測。Artificial Analysis 報導稱 GPT-5.5 xhigh 跑其 Index 的成本約比前代高 20%、比 Claude Opus 4.7 max 低 30%,且 output tokens 比前代少約 40%;Anthropic 文件則提醒,高解析度影像會使用更多 tokens。[24][
1] 對 production agent 來說,速度、token 使用量、工具調用成功率與錯誤修復率通常和單一 benchmark 分數一樣重要。
目前最可信的比較不是單一總排名,而是任務導向:Terminal-Bench 看 GPT-5.5,SWE-Bench 與視覺/computer-use 看 Claude Opus 4.7,知識與數學模型卡看 DeepSeek V4-Pro,Workers AI 上的 multimodal agentic coding 則把 Kimi K2.6 放進候選清單。[27][
4][
1][
5][
64][
36] 等到四款模型在同一 harness、同一工具設定與同一版本條件下都有完整共同分數,才適合排出真正的總榜。
Long context EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro Graphwalks BFS 256k f1 73.7%62.5%--76.9%- Graphwalks BFS 1mil f1 45.4%9.4%--41.2% (Opus 4.6)- Graphwalks parents 256k f1 90.1%82.8%--93.6%- Graphwalks parents 1mil f1 58.5%44....
Image 2 OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on three. Image 3 Effort variants provide a clear ladder to balance intelligence and cost. GPT-5.5 (xhigh) is 20% more expensive to run our Index than its pred...
© 2026 All rights reserved. About our ads Advertising Jobs Yahoo Finance Yahoo Finance Mail Sign in Investing.com OpenAI releases GPT-5.5 with improved coding and research capabilities Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the...
Image 2: hero image ← Back to all posts Moonshot AI Kimi K2.6 now available on Workers AI Apr 20, 2026 Workers AI @cf/moonshotai/kimi-k2.6 is now available on Workers AI, in partnership with Moonshot AI for Day 0 support. Kimi K2.6 is a native multimodal ag...
The Long-Horizon Coding Headline Numbers The metric that will likely get the most attention from dev teams is SWE-Bench Pro — a benchmark testing whether a model can resolve real-world GitHub issues in professional software repositories. Kimi K2.6 scores 58...
The model is available as DeepSeek V4-Pro and DeepSeek V4-Flash. The latter version, the company says, is a “more efficient and economical choice". “In world knowledge benchmarks, DeepSeek V4-Pro significantly leads other open-source models and is only slig...
DeepSeek also said that V4 has been optimized for use with popular agent tools such as Anthropic’s Claude Code and OpenClaw. According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capabilit...
Evaluation results []( Diamond on Idavidrein/gpqaView evaluation resultsleaderboard 90.1 Gsm8k on openai/gsm8kView evaluation resultsleaderboard 92.6 Hle on cais/hleView evaluation results 37.7 Mmlu Pro on TIGER-Lab/MMLU-ProView evaluation results 87.5 SWE...
3. Evaluation Results ; Terminal-Bench 2.0 (Terminus-2), 66.7, 65.4 ; SWE-Bench Pro, 58.6, 57.7 ; SWE-Bench Multilingual, 76.7, - ; SWE-Bench ... 5 days ago