如果你只問「哪個模型最強」,答案很容易失真。以 2026 年 4 月前後可取得的公開資料來看,GPT‑5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4 更像是四種不同的工作負載地圖:有人擅長瀏覽器與終端機代理,有人更適合修大型程式碼庫,有人主打開放權重部署,也有人值得放進長上下文實驗清單。
最重要的前提是:這些分數不是完全同場競賽。不同來源可能使用不同工具權限、推論 effort、測試框架與重試策略;LM Council 也提醒,獨立跑出的 benchmark 可能不會與 AI 廠商自報分數一致。[12]
先看結論:依任務選,不要只看總分
- 終端機操作、瀏覽器流程、工具編排與 autonomous agent: GPT‑5.5 的公開訊號最強。OpenAI 發布資料列出 Terminal‑Bench 2.0 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4%、Toolathlon 55.6%。[
5]
- 真實程式碼庫修復與 SWE‑Bench 類任務: Claude Opus 4.7 是最應優先測的候選。公開數字包含 SWE‑Bench Verified 87.6% 與 SWE‑Bench Pro 64.3%。[
17]
- 開放權重 coding stack: Kimi K2.6 很有競爭力。Kimi 官方資料列出 Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、LiveCodeBench v6 89.6。[
29]
- 長上下文與開源/開放權重實驗: DeepSeek V4 應納入評估,但務必看清楚是 Preview、Pro 還是 Pro-Max 等變體。DeepSeek 表示 V4 Preview 已於 2026 年 4 月 24 日上線並開源。[
42]
- 科學推理: Claude Opus 4.7 在 GPQA Diamond 上有 94.2% 的公開數字;Kimi K2.6 的 GPQA-Diamond 為 90.5%、AIME 2026 為 96.4%;DeepSeek V4-Pro / Pro-Max 表列 GPQA Diamond 為 90.1。[
19][
27][
29][
37]
讀 benchmark 前,先釐清三件事
- 不同 benchmark 測的是不同能力。 Terminal‑Bench、SWE‑Bench、BrowseComp、OSWorld、GPQA、HLE 各自對應終端機代理、程式碼修復、網頁搜尋、電腦操作、科學推理與高難度推理等不同技能;coding 強不代表瀏覽器代理或長上下文檢索也一定最強。[
5][
17][
29]
- 工具權限與推論 effort 會影響結果。 OpenAI system card 說明,GPT‑5.5 Pro 是同一底層模型搭配 parallel test-time compute 的設定;因此 GPT‑5.5 Pro 的分數不應直接視為一般 GPT‑5.5 在同一推論預算下的結果。[
3]
- 公開分數適合 shortlist,不適合直接下採購決策。 若要導入產品或企業流程,應用相同 prompt、相同工具預算、相同 timeout、相同評分規則,在自己的工作負載上重測。[
12]
四個模型快速定位
| 模型 | 公開定位 | 最強訊號 | 主要讀法 |
|---|---|---|---|
| GPT‑5.5 | OpenAI 發布資料強調 computer-use、tool-use 與 agentic workflows。[ | Terminal‑Bench 2.0 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4%;GPT‑5.5 Pro 的 BrowseComp 為 90.1%。[ | Pro 分數不可直接拿來與一般 GPT‑5.5 當成相同 compute budget 比較,因為 Pro 使用 parallel test-time compute 設定。[ |
| Claude Opus 4.7 | Anthropic 稱其為面向 coding 與 AI agents 的 hybrid reasoning model,並具備 1M context window。[ | SWE‑Bench Verified 87.6%、SWE‑Bench Pro 64.3%。[ | 1M context window 很有吸引力,但視窗大小不等於長上下文 recall 品質;StationX 摘要也指出極端 1M-token recall 有 caveat。[ |
| Kimi K2.6 | Moonshot/Kimi 的開放權重、偏 coding 的模型。[ | Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、LiveCodeBench v6 89.6。[ | Artificial Analysis 指出 Kimi K2.6 原生支援 image/video input,最大 context length 為 256k;實際表現仍會受部署方式影響。[ |
| DeepSeek V4-Pro / Pro-Max | DeepSeek V4 Preview 官方文件稱其已上線並開源;Hugging Face card 將 V4 系列描述為 MoE language models。[ | 表列 SWE Verified 80.6、SWE Pro 55.4、Terminal Bench 2.0 67.9、GPQA Diamond 90.1。[ | DeepSeek V4 命名下有不同變體,Flash、Pro、Pro-Max 等結果不應混成單一分數。[ |
Head-to-head:公開 benchmark 對照
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | 怎麼解讀 |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82.7% [ | 69.4% reported [ | 66.7% [ | 67.9% [ | 在 command-line 與 autonomous coding 類任務,GPT‑5.5 的領先最明顯。 |
| SWE‑Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | 55.4% [ | 較難的軟體工程 benchmark 上,Claude Opus 4.7 領先。 |
| SWE‑Bench Verified | 此來源組未見清楚可比數值 | 87.6% [ | 80.2% [ | 80.6% [ | 在 repo issue resolution 類任務,Claude 的公開訊號最強。 |
| OSWorld‑Verified | 78.7% [ | 78.0% [ | 73.1% [ | 未見可比數值 | GPT‑5.5 與 Claude Opus 4.7 在 computer-use tasks 非常接近。 |
| BrowseComp | 84.4%;GPT‑5.5 Pro 90.1% [ | 79.3% [ | 83.2%;Agent Swarm 86.3% [ | 未見可比數值 | 瀏覽器代理與 web research 類任務中,GPT‑5.5 Pro 與 Kimi Agent Swarm 都有強訊號。 |
| GPQA Diamond | 此來源組未見清楚官方可比數值 | 94.2% [ | 90.5% [ | 90.1% [ | 研究所等級科學推理上,Claude 的公開分數最高。 |
| HLE / 高難度推理 | 未見直接可比數值 | HLE no-tools 46.9%、with-tools 54.7% [ | HLE-Full 34.7%;with-tools 54.0% [ | HLE 37.7% [ | 加工具的 HLE 中 Claude 與 Kimi 接近;DeepSeek 表列 HLE 較低。 |
| 長上下文 | 此發布摘錄未見清楚公開 context spec | 1M context window [ | 256k max context length [ | V4 材料主打長上下文定位 [ | 長上下文部署可優先看 Claude 與 DeepSeek,但仍要另外測 recall 與指令遵循。 |
依使用場景怎麼選?
1. 終端機與工具密集型 agent:優先測 GPT‑5.5
如果你的產品要讓模型操作終端機、瀏覽器、工具 API,或在多步驟 agent loop 中完成任務,GPT‑5.5 是這組資料中最有說服力的起點。OpenAI 公開數字包含 Terminal‑Bench 2.0 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4%、Toolathlon 55.6%。[5]
但 GPT‑5.5 Pro 要分開看。它在 BrowseComp 上為 90.1%,不過 OpenAI system card 說明 Pro 是同一底層模型搭配 parallel test-time compute 的設定,所以不宜把它當作一般 GPT‑5.5 的同條件分數。[3][
5]
適合先測: coding agents、browser research agents、computer-use automation、工具密集型企業助理。
2. 真實程式碼庫維護與修 bug:優先測 Claude Opus 4.7
如果你的 KPI 是修 GitHub issue、改真實 repo、產出 pull request、讓 tests 通過,Claude Opus 4.7 是最強 shortlist candidate。SWE‑Bench Verified 87.6% 與 SWE‑Bench Pro 64.3% 讓它在這組軟體工程 benchmark 中站到前排。[17]
Anthropic 也將 Claude Opus 4.7 定位為面向 coding 與 AI agents 的 hybrid reasoning model,並提供 1M context window,因此大型程式碼庫工作流很自然會把它列入測試。[14]
適合先測: repo maintenance、code review、複雜 refactor、developer copilots、工程團隊 agent。
3. 需要開放權重 coding stack:優先測 Kimi K2.6
如果你的條件包含開放權重、較高部署控制權,或希望在自有基礎設施上做 coding agent,Kimi K2.6 是很強的選項。Kimi 官方表格列出 Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、SciCode 52.2%、LiveCodeBench v6 89.6。[29]
Kimi K2.6 在 agentic/search 類工作負載也有不錯訊號,包括 BrowseComp 83.2% 與 Agent Swarm BrowseComp 86.3%。[34] Artificial Analysis 則指出它原生支援 image/video input,最大 context length 為 256k。[
32]
適合先測: 開放模型部署、coding agents、research agents、需要更高 hosting control 的團隊。
4. 長上下文與開源實驗:把 DeepSeek V4 放進評估清單
DeepSeek 表示 DeepSeek V4 Preview 已於 2026 年 4 月 24 日正式上線並開源。[42] DeepSeek-V4-Pro model card 將 V4 系列呈現為 MoE language models。[
37]
DeepSeek V4-Pro / Pro-Max 的公開表列 benchmark 包含 Terminal Bench 2.0 67.9、SWE Verified 80.6、SWE Pro 55.4、GPQA Diamond 90.1。[37] 這讓它成為長上下文、開源/開放權重實驗與可部署替代方案評估中的重要候選;但分數一定要綁定具體變體來讀。[
37][
42]
適合先測: 長文件應用、開源/開放權重實驗、想比較 hosted frontier models 與可部署模型的團隊。
5. 科學與數學推理:Claude 領先 GPQA,但別只看單一榜
目前可見數字中,Claude Opus 4.7 在 GPQA Diamond 上達 94.2%。[19] Kimi K2.6 的 GPQA-Diamond 為 90.5%,AIME 2026 為 96.4%。[
27][
29] DeepSeek V4-Pro / Pro-Max 則表列 GPQA Diamond 90.1。[
37]
因此,若任務偏科學推理,Claude 是很強的 shortlist;但數學與科學工作負載通常受工具、解題時間、推論 effort 與評分方式影響很大,不能只靠單一 benchmark 定生死。[12]
實務評估 checklist
- 不要用單一公開分數做決策。 先用公開 benchmark 篩候選,再用自己的資料、prompt、工具預算、timeout 與評分規則重測。[
12]
- 把 GPT‑5.5 與 GPT‑5.5 Pro 分開追蹤。 Pro 使用 parallel test-time compute 設定,不能視為一般 GPT‑5.5 的同預算版本。[
3]
- 先定義是否真的需要開放權重。 若資料控制、自架、模型客製或部署彈性是硬性條件,Kimi K2.6 與 DeepSeek V4 應放在獨立評估軌道。[
29][
34][
37][
42]
- 長上下文不要只看 window size。 Claude Opus 4.7 有 1M context window,Kimi K2.6 的 max context length 為 256k,DeepSeek V4 材料也主打長上下文;但實際 recall、指令遵循與成本仍要用自己的文件測。[
14][
17][
32][
37][
42]
- coding agent 要同時跑公開題與內部 repo。 SWE‑Bench 類分數很有參考價值,但真實 repo 還會遇到依賴安裝、flaky tests、團隊風格與 code review 規範等差異。[
17]
主要限制
- 目前此來源組未見一個完整公開比較,能把四個模型放在同一獨立實驗室、同一 harness、同一工具權限與同一 effort setting 下測試;LM Council 也提醒獨立 benchmark 可能與廠商自報分數不同。[
12]
- GPT‑5.5 Pro 與 GPT‑5.5 不能混為一談,因為 Pro 是同一底層模型搭配 parallel test-time compute 的設定。[
3]
- DeepSeek V4 的成績具有變體差異;V4 Preview、V4-Pro、Pro-Max 等命名不應被壓成單一 DeepSeek V4 分數。[
37][
42]
- Kimi K2.6 與 DeepSeek V4 這類開放權重部署,實際效果可能受 serving stack、硬體與上下文設定影響,因此 published benchmark 之外仍要做部署環境內測。[
29][
34][
37]
Bottom line
GPT‑5.5:如果重點是 agentic computer-use、瀏覽器流程、工具編排與終端機密集型 coding,最值得優先測。[5]
Claude Opus 4.7:如果產品核心是 repo-level bug fixing、程式碼庫修復與 SWE‑Bench 類軟體工程,應放在優先清單前段。[14][
17]
Kimi K2.6:如果你需要開放權重 coding model,同時看重 SWE‑Bench、Terminal‑Bench 與 agentic search 訊號,它是很強的候選。[29][
34]
DeepSeek V4-Pro / Pro-Max:如果長上下文、開源/開放權重實驗與可部署性是關鍵條件,應納入 shortlist,但要嚴格核對具體變體與測試設定。[37][
42]
最穩妥的決策方式是:先用公開 benchmark 做 shortlist,再用真實任務、延遲、成本、隱私限制與 failure-mode tests 決定最後上線模型。[12]




