先講結論:要比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6,最易出事嘅做法就係硬砌一個總分,然後話邊個係總冠軍。現有公開資料並唔係每個模型都喺同一套 benchmark、同一個評測者、同一個設定下齊齊出分。GPT-5.5 同 Claude Opus 4.7 有較多可以直接對照嘅分數,主要來自 Vellum 同 OpenAI;DeepSeek V4 同 Kimi K2.6 嘅公開資料,則較集中喺長上下文、開放權重、多模態同 reliability 相關訊號 [2][
7][
30][
31][
33][
35][
36]。
一句話:按工作揀,唔好迷信總排名
如果你係要揀模型落真實 workflow,最好先問:你要佢做 terminal automation、software engineering、browser/tool workflow、長文件處理,定係開放權重多模態?
- Agent、terminal、tool workflow:GPT-5.5 嘅公開直比分數較有優勢,尤其 Terminal-Bench 2.0、BrowseComp 同 OSWorld-Verified [
2][
7]。
- Software engineering / issue solving:Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 對 GPT-5.5 的 58.6% 領先 [
2]。
- 超長上下文:DeepSeek V4 Pro 的 context window 達 1,000k tokens,比 Kimi K2.6 的 256k 大,但要同時留意 hallucination rate 94% 這個風險訊號 [
31][
33]。
- 開放權重多模態:Kimi K2.6 係值得留意嘅候選,Artificial Analysis 指它是 open weights model,並支援 image/video input 與 text output [
35][
36]。
可直接比較嘅分數:先睇同場數據
下表重點唔係要砌出一個總冠軍,而係話你知:邊啲數字可以直接睇,邊啲位仍然未有同場同規則資料。
| Benchmark / 指標 | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | 點樣讀 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 同一來源未見直比分數 | 同一來源未見直比分數 | GPT-5.5 在 Vellum 表內領先 [ |
| SWE-Bench Pro | 58.6% | 64.3% | 同一來源未見直比分數 | 同一來源未見直比分數 | Claude Opus 4.7 在 software engineering benchmark 較強 [ |
| GDPval | 84.9% | 80.3% | 同一來源未見直比分數 | 同一來源未見直比分數 | GPT-5.5 在呢組測試領先 [ |
| OSWorld-Verified | 78.7% | 78.0% | 同一來源未見直比分數 | 同一來源未見直比分數 | GPT-5.5 在 OpenAI 表內些微領先 [ |
| BrowseComp | 84.4% | 79.3% | 同一來源未見直比分數 | 同一來源未見直比分數 | GPT-5.5 在 tool/browser 類測試領先 [ |
| MCP Atlas | 75.3% | 79.1% | 同一來源未見直比分數 | 同一來源未見直比分數 | Claude Opus 4.7 在呢項領先 [ |
| GPQA Diamond | 93.6% | 94.2% | 同一來源未見直比分數 | 同一來源未見直比分數 | Claude Opus 4.7 略高 [ |
| FrontierMath T1–3 | 51.7% | 43.8% | 同一來源未見直比分數 | 同一來源未見直比分數 | GPT-5.5 在 Vellum 表內領先 [ |
| Context window | 本文所用 Artificial Analysis 對照表未列 | 本文所用 Artificial Analysis 對照表未列 | DeepSeek V4 Pro:1,000k tokens | 256k tokens | DeepSeek V4 Pro 的上下文視窗較大 [ |
| AA-Omniscience / hallucination | 同一來源未見直比分數 | 同一來源未見直比分數 | V4 Pro Max:-10;V4 Pro hallucination rate:94% | 同一來源未見直比分數 | DeepSeek V4 需要特別做查證同防幻覺 [ |
| Artificial Analysis Intelligence Index | 本文來源未見 | 本文來源未見 | 本文來源未見 | 54 | 呢個係 Kimi K2.6 的單項來源資訊,不應同 Vellum/OpenAI 分數混成一個 leaderboard [ |
「同一來源未見直比分數」唔等於該模型較差,只係代表喺本文採用嘅來源入面,暫時未見它在同一 benchmark、同一評測語境下嘅可比數字。
GPT-5.5:agent、terminal、tool workflow 資料最完整
在本文使用嘅資料入面,GPT-5.5 係同 Claude Opus 4.7 有最多直比分數嘅模型。Vellum 列出 Terminal-Bench 2.0、SWE-Bench Pro、GDPval、GPQA Diamond 同 FrontierMath;OpenAI 則列出 OSWorld-Verified、BrowseComp 同 MCP Atlas [2][
7]。
最清晰嘅強項係 terminal、agentic workflow 同 tool use。GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 對 Claude Opus 4.7 的 69.4% 領先;在 BrowseComp 以 84.4% 對 79.3% 領先;在 OSWorld-Verified 亦以 78.7% 對 78.0% 略高 [2][
7]。
但 GPT-5.5 並唔係全項通殺。Claude Opus 4.7 在 SWE-Bench Pro、MCP Atlas 同 GPQA Diamond 分別領先 GPT-5.5,呢點對做 coding agent 或研究型工作嘅團隊尤其要留意 [2][
7]。
安全同可控性方面,OpenAI 的 GPT-5.5 System Card 提到以 CoT-Control 評估模型可控性,該評估套件包含超過 13,000 個 tasks,來自 GPQA、MMLU-Pro、HLE、BFCL 同 SWE-Bench Verified 等 benchmark [4]。呢類資料有助理解模型行為控制,但唔應直接當成 performance benchmark 分數。
Claude Opus 4.7:software engineering 訊號最突出
Anthropic 的 Claude API Docs 列出 Claude Opus 4.7,日期為 2026 年 4 月 16 日 [20]。在現有可直比資料入面,Claude Opus 4.7 最突出嘅位係 SWE-Bench Pro:64.3%,高過 GPT-5.5 的 58.6% [
2]。
Claude Opus 4.7 亦在 MCP Atlas 以 79.1% 對 GPT-5.5 的 75.3% 領先 [7]。不過,同一批資料亦顯示 GPT-5.5 在 OSWorld-Verified、BrowseComp、Terminal-Bench 2.0、GDPval 同 FrontierMath T1–3 等項目表現更高 [
2][
7]。
安全研究角度,Anthropic 在 Petri 2.0 指出,兩種介入方法合併使用時,令 Claude models 的 eval-awareness 出現 47.3% median relative drop [22]。呢個數字應理解為 Claude 系列行為與安全評估資料,而唔係 Claude Opus 4.7 的一般能力 benchmark。
DeepSeek V4:長上下文好大,但 reliability 要加防線
DeepSeek-V4 技術報告指出,V4 series 保留 DeepSeek-V3 的 DeepSeekMoE framework 同 Multi-Token Prediction strategy,並加入 hybrid attention mechanism,以改善 long-context 效率 [30]。Artificial Analysis 的對照表顯示,DeepSeek V4 Pro 的 context window 為 1,000k tokens,而 Kimi K2.6 為 256k tokens [
33]。
需要特別小心嘅係 reliability。Artificial Analysis 報告指 DeepSeek V4 Pro Max 在 AA-Omniscience 得分為 -10,較 DeepSeek V3.2 Reasoning 的 -21 有改善;但同一報告亦指 DeepSeek V4 Pro 的 hallucination rate 為 94%,DeepSeek V4 Flash 為 96% [31]。
所以,DeepSeek V4 Pro 較適合需要超長上下文嘅場景,例如處理大型文件、長流程記憶或需要一次帶入大量資料嘅 workflow。但如果答案錯誤成本高,就應配合 retrieval grounding、fact-checking 或人工覆核,唔好只因為 context window 大就當準確度自然更高 [30][
31][
33]。
Kimi K2.6:開放權重多模態候選,但仍要等更多直比分數
Artificial Analysis 指 Kimi K2.6 是 2026 年 4 月發布的 open weights model,Artificial Analysis Intelligence Index 為 54 [35]。另一篇 Artificial Analysis 分析指出,Kimi K2.6 原生支援 image 和 video input,輸出為 text,max context length 維持 256k [
36]。
單看 context window,Kimi K2.6 的 256k 低於 DeepSeek V4 Pro 的 1,000k tokens [33]。而在本文採用嘅來源入面,仍未見 Kimi K2.6 在 Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified 或 MCP Atlas 等項目上,與 GPT-5.5、Claude Opus 4.7 同場直比嘅完整分數 [
2][
7][
33][
35][
36]。
換句話講,Kimi K2.6 值得放入 open-weight multimodal shortlist,但暫時唔應該話它在缺乏直比分數嘅 benchmark 上一定高過或低過 GPT-5.5、Claude Opus 4.7 或 DeepSeek V4 [35][
36]。
點揀模型:用場景代替排行榜
| 你要做嘅事 | 先考慮邊個 | 根據係咩 |
|---|---|---|
| Terminal automation / agentic workflow | GPT-5.5 | Terminal-Bench 2.0:GPT-5.5 82.7%,Claude Opus 4.7 69.4% [ |
| Software engineering / issue solving | Claude Opus 4.7 | SWE-Bench Pro:Claude Opus 4.7 64.3%,GPT-5.5 58.6% [ |
| Browser 同 tool workflow | GPT-5.5 或 Claude Opus 4.7,視乎工具而定 | GPT-5.5 在 BrowseComp 領先;Claude Opus 4.7 在 MCP Atlas 領先 [ |
| Computer-use workflow | GPT-5.5 略先 | OSWorld-Verified:GPT-5.5 78.7%,Claude Opus 4.7 78.0% [ |
| 超長上下文文件 / 大量上下文保留 | DeepSeek V4 Pro | Context window 為 1,000k tokens,但要留意 hallucination rate 94% [ |
| 開放權重多模態 | Kimi K2.6 | Artificial Analysis 指它是 open weights model,並支援 image/video input 與 text output [ |
| 最重視降低 hallucination | 暫時唔能夠由本文資料定總冠軍 | DeepSeek V4 有明確高 hallucination 風險訊號,但四個模型未有同一來源的完整 reliability 直比 [ |
Benchmark 有幾個坑,揀之前要知道
第一,唔同來源嘅分數唔應該硬合併成一個排行榜。Vellum、OpenAI 同 Artificial Analysis 報告嘅測試集、測試語境、工具可用性同評分方式都可能唔同,所以最穩陣係只在同一來源、同一 benchmark 內比較 [2][
7][
31][
33][
35]。
第二,coding benchmark 要分清楚係寫小題,定係解真實 issue。學術研究指出,HumanEval 這類 benchmark 有局限,而較貼近實務嘅評估應同時考慮 SWE-Bench 這類 issue-solving benchmark [42]。
第三,context window 大唔代表答案必然準。DeepSeek V4 Pro 的 context window 是 1,000k tokens,但 Artificial Analysis 同時報告 DeepSeek V4 Pro hallucination rate 為 94% [31][
33]。如果要放入 production,最好用自己實際資料、實際 prompt、實際工具鏈再做內部測試。
總結
按目前證據,GPT-5.5 係 agentic、terminal 同部分 tool workflow 嘅強勢選擇,因為它在 Terminal-Bench 2.0、BrowseComp 同 OSWorld-Verified 對 Claude Opus 4.7 有領先 [2][
7]。Claude Opus 4.7 則更適合優先考慮 software engineering issue-solving 的團隊,因為它在 SWE-Bench Pro 以 64.3% 對 GPT-5.5 的 58.6% 領先 [
2]。
DeepSeek V4 Pro 的最大賣點係 1,000k tokens 長上下文,但要同 94% hallucination rate 一齊評估,尤其係高風險或高成本錯誤場景 [31][
33]。Kimi K2.6 則係值得觀察嘅 open-weight multimodal 模型:它有 256k context、原生 image/video input,並在 Artificial Analysis Intelligence Index 得 54;但要作 production 級結論,仍需要更多同場同規則 benchmark [
35][
36]。




