截至 2026 年 4 月可見嘅公開報告,GPT‑5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4 唔應該當成一張簡單「排行榜」去讀。更實際嘅睇法係:你想做 agent、自動用電腦、修 codebase、部署 open-weights model,定係試 long-context?唔同 workload,答案會唔同。
最大 caveat 要先講:唔同實驗室、工具權限、推理 effort setting、evaluation harness 都會改變分數,所以呢啲 benchmark 唔係完全 apples-to-apples。LM Council 亦提醒,獨立跑出嚟嘅 benchmark 未必同 AI 公司自報分數一致。 [12]
先講結論
- Agentic computer-use、browser workflow、terminal-heavy agents:GPT‑5.5 最有公開訊號。 OpenAI launch data 報告 GPT‑5.5 喺 Terminal‑Bench 2.0 有 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4%、Toolathlon 55.6%。 [
5]
- Production codebase repair、SWE‑Bench-style coding:Claude Opus 4.7 係最強 shortlist candidate。 已報告數字包括 SWE‑Bench Verified 87.6% 同 SWE‑Bench Pro 64.3%。 [
17]
- Open-weights coding stack:Kimi K2.6 好有競爭力。 Kimi 官方材料列出 Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、LiveCodeBench v6 89.6。 [
29]
- Long-context open-source / open-weights 實驗:DeepSeek V4 值得評估,但一定要睇清 variant。 DeepSeek 表示 V4 Preview 喺 2026 年 4 月 24 日正式 live 並 open-sourced。 [
42]
- Science reasoning:Claude 喺 GPQA Diamond 報告分數最高,但整體畫面唔係單一 benchmark 可以定。 Claude Opus 4.7 GPQA Diamond 報告 94.2%;Kimi K2.6 GPQA-Diamond 90.5%、AIME 2026 96.4%;DeepSeek V4-Pro / Pro-Max 表格報告 GPQA Diamond 90.1。 [
19][
27][
29][
37]
睇 benchmark 之前,先記住三件事
- Benchmark family 好重要。 Terminal‑Bench、SWE‑Bench、BrowseComp、OSWorld、GPQA、HLE 量度嘅能力唔同。Coding benchmark 強,唔代表 web research、long-context retrieval 或 computer-use tasks 都一定最強。 [
5][
17][
29]
- 工具權限同 inference effort 會改結果。 OpenAI system card 指出 GPT‑5.5 Pro 係同一個 underlying model,但使用 parallel test-time compute setting;所以 GPT‑5.5 同 GPT‑5.5 Pro 唔應該當成同一個 inference budget 下嘅直接比較。 [
3]
- Public benchmarks 適合做 shortlist,唔適合直接做採購答案。 獨立 benchmark 可能同 self-reported scores 唔一致;真正落地前,應該喺自己 workload 做 internal eval。 [
12]
四個模型快速定位
| Model | 公開定位 | 最強公開訊號 | 主要 caveat |
|---|---|---|---|
| GPT‑5.5 | OpenAI launch material 明顯強調 computer-use、tool-use 同 agentic workflows。 [ | Terminal‑Bench 2.0 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4%;GPT‑5.5 Pro BrowseComp 90.1%。 [ | Pro 分數唔好直接當 regular GPT‑5.5,因為 Pro 係 parallel test-time compute setting。 [ |
| Claude Opus 4.7 | Anthropic 稱佢係面向 coding 同 AI agents 嘅 hybrid reasoning model,並有 1M context window。 [ | SWE‑Bench Verified 87.6%、SWE‑Bench Pro 64.3%。 [ | 1M context window 有用,但 window size 唔等於 long-context recall 質素;StationX summary 對極端 1M-token recall 有 caveat。 [ |
| Kimi K2.6 | Moonshot/Kimi 嘅 open-source / open-weights coding-oriented model。 [ | Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、LiveCodeBench v6 89.6。 [ | Artificial Analysis 指 Kimi K2.6 原生支援 image/video input,max context length 係 256k;實際部署表現仍要睇 serving setup。 [ |
| DeepSeek V4-Pro / Pro-Max | DeepSeek V4 Preview 官方文件稱已 live 並 open-sourced;Hugging Face card 將 V4 series 呈現為 MoE language models。 [ | SWE Verified 80.6、SWE Pro 55.4、Terminal Bench 2.0 67.9、GPQA Diamond 90.1。 [ | DeepSeek V4 名稱底下有 variant 差異;Flash、Pro、Pro-Max style results 要分開讀。 [ |
Head-to-head benchmark 對照
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | 點樣解讀 |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82.7% [ | 69.4% reported [ | 66.7% [ | 67.9% [ | Command-line 同 autonomous coding 風格任務,GPT‑5.5 lead 最清楚。 |
| SWE‑Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | 55.4% [ | Hard software-engineering benchmark 入面,Claude Opus 4.7 較前。 |
| SWE‑Bench Verified | 今次 source set 未見清晰可比值 | 87.6% [ | 80.2% [ | 80.6% [ | Repo issue resolution 類任務,Claude 嘅 reported signal 最強。 |
| OSWorld‑Verified | 78.7% [ | 78.0% [ | 73.1% [ | 未見可比值 | Computer-use tasks 入面,GPT‑5.5 同 Claude Opus 4.7 好接近。 |
| BrowseComp | 84.4%;GPT‑5.5 Pro 90.1% [ | 79.3% [ | 83.2%;Agent Swarm 86.3% [ | 未見可比值 | Browser-agent 同 web-research tasks,GPT‑5.5 Pro 同 Kimi Agent Swarm 都有強訊號。 |
| GPQA Diamond | 今次 source set 未見清晰官方可比值 | 94.2% [ | 90.5% [ | 90.1% [ | Graduate-level science reasoning,Claude reported score 最高。 |
| HLE / hard reasoning | 未見直接可比值 | HLE no-tools 46.9%、with-tools 54.7% [ | HLE-Full 34.7%;with-tools 54.0% [ | HLE 37.7% [ | Tool-augmented HLE 入面,Claude 同 Kimi 接近;DeepSeek listed HLE 較低。 |
| Long context | 今次 launch excerpt 未見清晰 public context spec | 1M context window [ | 256k max context length [ | V4 materials 有 long-context positioning [ | Long-context deployment,Claude 同 DeepSeek 定位較清楚;但實際 recall 要另測。 |
按用途揀:邊個 model 啱你?
1. Terminal-heavy autonomous coding agents:優先試 GPT‑5.5
如果你嘅 workload 包括 terminal actions、browser/tool use、OS-level tasks、多步 agent loop,GPT‑5.5 喺呢組公開資料入面最突出。OpenAI 報告數字包括 Terminal‑Bench 2.0 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4%、Toolathlon 55.6%。 [5]
GPT‑5.5 Pro 嘅 BrowseComp score 係 90.1%,但唔應該當成 regular GPT‑5.5 嘅同等比較;OpenAI system card 指 Pro 係同一 underlying model 加上 parallel test-time compute setting。 [3][
5]
最適合: coding agents、browser research agents、computer-use automation、tool-heavy enterprise assistants。
2. Production codebase repair:優先試 Claude Opus 4.7
如果 KPI 係喺真實 repositories 修 bugs、準備 pull requests、令 tests pass、理解大型 codebase,Claude Opus 4.7 係好自然嘅 shortlist。SWE‑Bench Verified 87.6% 同 SWE‑Bench Pro 64.3% 令佢喺 software-engineering benchmarks 入面跑前。 [17]
Anthropic 將 Claude Opus 4.7 定位為面向 coding 同 AI agents、具備 1M context window 嘅 hybrid reasoning model,所以大型 codebase workflow 值得優先測。 [14]
最適合: repo maintenance、code review、complex refactors、developer copilots、engineering agents。
3. Open-weights coding stack:Kimi K2.6 係強候選
如果團隊需要 self-hosting、更多 hosting control,或者想用 open-weights model 做 coding stack,Kimi K2.6 係呢批模型入面最值得試嘅選項之一。Kimi 官方表格列出 Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、SciCode 52.2%、LiveCodeBench v6 89.6。 [29]
Kimi K2.6 嘅公開材料亦顯示 agentic/search-style workloads 有不錯訊號,包括 BrowseComp 83.2% 同 Agent Swarm BrowseComp 86.3%。 [34] Artificial Analysis 指 model 原生支援 image/video input,並有 256k context length。 [
32]
最適合: open model deployments、coding agents、research agents、需要較多部署控制權嘅團隊。
4. Long-context open-source 實驗:DeepSeek V4 值得入 shortlist
DeepSeek 表示 DeepSeek V4 Preview 已於 2026 年 4 月 24 日 live 並 open-sourced。 [42] DeepSeek-V4-Pro model card 將 V4 series 呈現為 MoE language models。 [
37]
DeepSeek V4-Pro / Pro-Max 報告 benchmark set 包括 Terminal Bench 2.0 67.9、SWE Verified 80.6、SWE Pro 55.4、GPQA Diamond 90.1。 [37] 呢啲數字令佢成為 open-source / open-weights experimentation 同 long-context workloads 嘅 strategic shortlist candidate;但分數一定要配合 exact variant 一齊睇。 [
37][
42]
最適合: long-context applications、open-source / open-weights experiments、想用 deployable alternatives 對比 hosted frontier models 嘅團隊。
5. Science 同 math reasoning:Claude GPQA 領先,但唔好單憑一個榜拍板
可見報告數字入面,Claude Opus 4.7 喺 GPQA Diamond 去到 94.2%。 [19] Kimi K2.6 報告 GPQA-Diamond 90.5% 同 AIME 2026 96.4%。 [
27][
29] DeepSeek V4-Pro / Pro-Max 報告 GPQA Diamond 90.1。 [
37]
所以 science reasoning 方面,Claude 係強 shortlist。但 math/science workload 唔應該只睇單一 benchmark:工具權限、effort mode、prompting、scoring harness 都可能令結果有變。 [12]
落地前 evaluation checklist
- 唔好用一個 public benchmark 做決定。 Public 同 self-reported scores 可能同 independent runs 有差異;自己 eval 時要固定同一套 prompts、tool budget、timeout 同 scoring rubric。 [
12]
- GPT‑5.5 同 GPT‑5.5 Pro 要分開 track。 Pro 用 parallel test-time compute;regular 同 Pro 唔係同一 compute budget。 [
3]
- 先定義 open-weights 需求。 如果 data control、self-hosting 或 model customization 係 mandatory,就應該將 Kimi K2.6 同 DeepSeek V4 放入獨立 evaluation lane。 [
29][
34][
37][
42]
- Long context 唔好只睇 window size。 Claude Opus 4.7 有 1M context positioning,Kimi K2.6 reported max context 係 256k,DeepSeek V4 materials 亦有 long-context positioning;但真正 recall、instruction following 同成本,要用自己文件測。 [
14][
17][
32][
37][
42]
- Coding agents 要 public benchmark 加 internal repo 一齊跑。 SWE‑Bench-style scores 係有用訊號,但 production repos 會遇到 dependency setup、flaky tests、coding style、review constraints 等現實問題。 [
17]
限制同不確定性
- 今次 source set 未見到一個 complete public comparison,可以將四個 models 放喺同一個 independent lab、同一 harness、同一 tool access、同一 effort setting 下比較;LM Council 亦提醒 independent 同 self-reported benchmark 可能唔一致。 [
12]
- GPT‑5.5 Pro 唔應該同 GPT‑5.5 混為一談,因為 OpenAI system card 指 Pro 係同一 underlying model 但使用 parallel test-time compute setting。 [
3]
- DeepSeek V4 分數係 variant-specific;V4 Preview、V4-Pro、Pro-Max style naming 唔應該合併成一個單一 DeepSeek V4 分數。 [
37][
42]
- Kimi K2.6 同 DeepSeek V4 呢類 open-weights deployments,實際表現會受 serving stack、hardware、quantization、context settings 影響;published benchmark 之外,仍然要做自己部署環境下嘅 eval。 [
29][
34][
37]
Bottom line
GPT‑5.5:如果你重點係 agentic computer-use、browsing、tool orchestration、terminal-heavy coding,應該入 shortlist。 [5]
Claude Opus 4.7:如果產品核心價值係 repo-level bug fixing、codebase repair、SWE‑Bench-style software engineering,應該優先測。 [14][
17]
Kimi K2.6:如果你需要 open-weights coding model,同時想要強 SWE‑Bench、Terminal‑Bench、agentic search 訊號,值得認真評估。 [29][
34]
DeepSeek V4-Pro / Pro-Max:如果 long-context open-source / open-weights experimentation 同 deployability 係關鍵限制,應該放入 shortlist;但每次都要核對 exact variant 同 benchmark setup。 [37][
42]
最穩陣嘅產品決策係:先用 public benchmark table 做 shortlist,再用自己真實 tasks、latency、cost、privacy constraints 同 failure-mode tests 決定最終 model。 [12]




