表中的 — 代表提供的來源片段沒有可直接對照的分數。這點很重要:不同來源可能測的是不同模式、不同版本或不同任務設定。
最大問題不是沒有分數,而是分數不一定能放在同一把尺上。Artificial Analysis 比的是 GPT-5.5 medium、Kimi K2.6 與 Claude Opus 4.7 non-reasoning high;AkitaOnRails 使用 GPT-5.5 xHigh/Codex,並把 DeepSeek V4 Flash 與 DeepSeek V4 Pro 分開列;VentureBeat 又另外列出 GPT-5.5 與 GPT-5.5 Pro。
就算只看 GPT-5.5 與 Claude Opus 4.7,也不是單向輾壓。LLM Stats 指出,在兩家供應商都回報的 10 個 benchmark 中,Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;Claude 的優勢集中在 reasoning-heavy 與 review-grade 測試,GPT-5.5 的優勢則集中在 long-running tool-use 與 shell-driven 任務。
GPT-5.5 最有說服力的亮點是 ARC 與 Terminal-Bench。DocsBot 顯示,GPT-5.5 在 ARC-AGI-2 得到 85%,Claude Opus 4.7 為 75.8%;在 ARC-AGI-1,GPT-5.5 為 95%,Claude Opus 4.7 為 93.5%。
在 Terminal-Bench 2.0,GPT-5.5 得到 82.7%,明顯高於 Claude Opus 4.7 的 69.4% 與 DeepSeek 的 67.9%。 這類測試比較貼近會使用終端機、工具、命令列流程的代理型工作。
Artificial Analysis 也把 GPT-5.5 medium 列在 57,高於 Kimi K2.6 的 54 與 Claude Opus 4.7 non-reasoning high 的 52。 但這不是所有模式的總排名;LLM Stats 也同時顯示 Claude Opus 4.7 在部分推理與軟體工程評測中勝過 GPT-5.5。
Claude Opus 4.7 的強項比較集中在高難度推理、審查型任務與複雜程式碼理解。VentureBeat 列出的 Humanity’s Last Exam 無工具設定中,Claude Opus 4.7 為 46.9%,GPT-5.5 為 41.4%,DeepSeek 為 37.7%;使用工具後,Claude 為 54.7%,GPT-5.5 為 52.2%,DeepSeek 為 48.2%。
在 SWE-Bench Pro,DataCamp 列出 Claude Opus 4.7 得到 64.3%,GPT-5.5 為 58.6%,DeepSeek V4 Pro 為 55.4%。 這也符合 LLM Stats 的整體描述:Claude 在 GPQA、HLE 無工具、HLE 有工具、SWE-Bench Pro、MCP Atlas 與 FinanceAgent v1.1 領先 GPT-5.5。
Kimi K2.6 不容易被放進同一張完整排行榜,因為它沒有在每個來源中都和 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同場出現。Artificial Analysis 的可見片段中,Kimi K2.6 得到 54,低於 GPT-5.5 medium 的 57,但高於 Claude Opus 4.7 non-reasoning high 的 52。
在 AkitaOnRails 的 coding benchmark,Kimi K2.6 得到 87,低於 Claude Opus 4.7 的 97 與 GPT-5.5 xHigh/Codex 的 96,但高於 DeepSeek V4 Flash 的 78 與 DeepSeek V4 Pro 的 69。 Verdent 另列 SWE-Bench Verified:Kimi K2.6 為 80.2%,Claude Opus 4.7 為 87.6%。
Kimi 的實務差異在於開放權重與自架可能性。Verdent 指出,K2.6 weights 可在 Hugging Face 取得,並可透過 vLLM、SGLang 或 KTransformers 執行;同一來源也提到,在縮小 context 的 INT4 版本下,最低可行配置為 4× H100。 Hugging Face 的 README 還列出 Kimi K2.6 的 agentic 指標,例如 HLE-Full 搭配工具為 54.0、BrowseComp 為 83.2、DeepSearchQA f1-score 為 92.5、Toolathlon 為 50.0、MCPMark 為 55.9;但那張表主要把 Kimi 與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較,不是本文四款模型的完整同場對照。
在這批來源中,DeepSeek V4 比較像 value model,而不是最高 benchmark score 的模型。VentureBeat 顯示,DeepSeek 在 HLE 無工具、HLE 有工具與 Terminal-Bench 2.0 都低於 GPT-5.5 與 Claude Opus 4.7。 DataCamp 的 SWE-Bench Pro 也列出 DeepSeek V4 Pro 為 55.4%,低於 GPT-5.5 的 58.6% 與 Claude Opus 4.7 的 64.3%。
AkitaOnRails 的 coding benchmark 中,DeepSeek V4 Flash 為 78,DeepSeek V4 Pro 為 69,低於同表的 Kimi K2.6、GPT-5.5 xHigh/Codex 與 Claude Opus 4.7。
不過,價格會改變產品決策。Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元;GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元。 這不代表 DeepSeek 是 benchmark 冠軍,但若你的任務是大量草稿、低風險處理、內部評估或需要大量嘗試的流程,它可能是更划算的起點。
只看 benchmark,第一梯隊仍是 GPT-5.5 與 Claude Opus 4.7,但兩者強項不同。GPT-5.5 在 ARC 與 Terminal-Bench 的訊號更強;Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更有優勢。 Kimi K2.6 是強力 coding/agentic 候選,尤其在需要開放權重或自架路線時更值得注意,但它與另外三款模型的完整同場比較較少。
DeepSeek V4 在這批資料中的 raw score 多半不是最高,卻靠低 API 價格成為很有存在感的 price-performance 選項。
Comments
0 comments