| 高難推理與軟體工程 |
| Claude Opus 4.7;GPT-5.5 緊追 |
| VentureBeat 的共享表中,Claude 在 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas 領先;GPT-5.5 在 Terminal-Bench 2.0 與基礎 BrowseComp 更強,GPT-5.5 Pro 在有列出的 HLE with tools 與 BrowseComp 最高。 |
| API 成本 | DeepSeek V4 | Mashable 列 DeepSeek V4 為每 100 萬輸入 tokens US$1.74、輸出 tokens US$3.48,低於 GPT-5.5 的 US$5/US$30 與 Claude Opus 4.7 的 US$5/US$25。 |
| 已揭露 coding 指標 | DeepSeek V4 Pro | Together AI 列 DeepSeek V4 Pro 為 LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%。 |
| Kimi K2.6 的定位 | 值得測,但尚非定論 | Kimi K2.6 有 coding 與 agentic 數據,但主要 Kimi 表格多與 GPT-5.4、Claude Opus 4.6 比較,而不是 GPT-5.5、Claude Opus 4.7。 |
目前來源中最乾淨的整體排序,是 Artificial Analysis 的 Intelligence Index 摘要:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59;Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57。
Kimi K2.6 在可見的綜合片段中低於這個 GPT-5.5/Claude 層級。OpenRouter 列 Kimi K2.6 的 Intelligence 為 53.9、Coding 為 47.1、Agentic 為 66.0;LLMBase 的 DeepSeek V4 Flash High vs Kimi K2.6 比較也列 Kimi 為 Intelligence 53.9、Coding 47.1。 同一個 LLMBase 比較列 DeepSeek V4 Flash High 為 Intelligence 44.9、Coding 39.8,但這是 Flash 版本,不能直接代表 DeepSeek V4 Pro 或 Pro-Max。
所以,這裡能下的結論是:GPT-5.5 對 Claude Opus 4.7 的整體 ranking 訊號相對清楚;但現有來源沒有提供 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro-Max、Kimi K2.6 四者完整同場的一條總榜。
這不是一場橫掃,而是分項勝負。Claude Opus 4.7 在 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas 的證據較強;GPT-5.5 則在 Terminal-Bench 2.0 與基礎 BrowseComp 佔優,且 GPT-5.5 Pro 在 VentureBeat 有列出的 HLE with tools 與 BrowseComp 最高。
DeepSeek-V4-Pro-Max 在若干項目很接近,但在這張共享表中沒有超過 GPT-5.5 或 Claude Opus 4.7 的最佳結果。最接近的一列是 BrowseComp:DeepSeek-V4-Pro-Max 為 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。
若任務像 repository 級軟體工程,Claude Opus 4.7 在 VentureBeat 的 SWE-Bench Pro 共享列最強:64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek-V4-Pro-Max 的 55.4%。
但若你看的是競賽程式、程式生成與多語言軟體工程,DeepSeek V4 Pro 在本文來源中揭露的 coding 指標最完整之一。Together AI 列出 DeepSeek V4 Pro 的 LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%。 NVIDIA 的模型卡也把 DeepSeek V4 Flash 與 V4 Pro 的多種推理設定拆開列示,並顯示 V4-Pro Max 在 LiveCodeBench 為 93.5、Codeforces 為 3206。
Kimi K2.6 也有值得看的 coding 證據,只是同場對照不夠直接。Lorka 的表格列 Kimi K2.6 在 SWE-Bench Pro 為 58.6%、HLE-Full with tools 為 54.0%、GPQA-Diamond 為 90.5%、MMMU-Pro 為 79.4%,但該表主要拿它和 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較。 Verdent 則列 Kimi K2.6 在 SWE-Bench Verified 為 80.2%、Terminal-Bench 2.0 為 66.7%、HLE with tools 為 54.0%、LiveCodeBench v6 為 89.6%,並註明 Opus 4.7 在 SWE-Bench Verified 以 87.6% 領先。
不過,價格表不能和所有端點的實際限制劃上等號。Mashable 在比較中把 DeepSeek V4、GPT-5.5、Claude Opus 4.7 都列為 1M context window;但 OpenRouter 的 DeepSeek V4 Pro 頁面顯示 max tokens 為 256K、max output tokens 為 66K。 真正上線前,仍要確認你呼叫的是哪個供應商、哪個版本、哪個推理檔位,以及實際上下文與輸出上限。
如果你的決策依據是整體排名訊號,GPT-5.5 是最有根據的預設選擇。Artificial Analysis 將 GPT-5.5 xhigh 列為 60、GPT-5.5 high 列為 59,是本文來源中可見的最高兩個 Intelligence Index 位置。
在 VentureBeat 的共享表裡,GPT-5.5 也在 Terminal-Bench 2.0 達 82.7%,基礎 BrowseComp 為 84.4%;GPT-5.5 Pro 在有列出的 BrowseComp 達 90.1%。
Claude Opus 4.7 的整體排名略低於 GPT-5.5,但仍屬最前段:Artificial Analysis 列 Claude Opus 4.7 Adaptive Reasoning Max Effort 的 Intelligence Index 為 57。 在 VentureBeat 共享表中,它領先 GPT-5.5 與 DeepSeek-V4-Pro-Max 的項目包括 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas。
Anthropic 自家發表資料也提到 Claude Opus 4.7 的內部 research-agent 結果,包括六個模組整體分數並列第一的 0.715,以及 General Finance 分數 0.813、高於 Opus 4.6 的 0.767。 但這類內部基準最好當成補充背景,不宜等同於中立排行榜。
DeepSeek V4 最明顯的優勢是價格。Mashable 的比較中,DeepSeek V4 每 100 萬輸入 tokens 為 US$1.74、輸出 tokens 為 US$3.48;GPT-5.5 為 US$5/US$30,Claude Opus 4.7 為 US$5/US$25。
DeepSeek V4 Pro 的 coding 指標也不弱:Together AI 列出 LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%。 取捨在於,DeepSeek-V4-Pro-Max 在 VentureBeat 共享表中仍落後於 GPT-5.5 或 Claude Opus 4.7 的最佳結果,即使在 BrowseComp 這類項目已非常接近。
Kimi K2.6 的難點在於:主要 Kimi-focused 表格多拿它和 GPT-5.4、Claude Opus 4.6 比,而不是 GPT-5.5、Claude Opus 4.7。 但訊號並不弱。OpenRouter 列 Kimi K2.6 的 Intelligence 為 53.9、Coding 為 47.1、Agentic 為 66.0;Verdent 則列 SWE-Bench Verified 80.2% 與 LiveCodeBench v6 89.6%。
選 GPT-5.5,如果你最看重現有整體 Intelligence Index 訊號。 選 Claude Opus 4.7,如果你的工作像 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas 這些高難推理與軟體工程列。
選 DeepSeek V4,如果你最在意成本效益,並能先驗證實際要用的 V4 版本;它的列示 API 價格明顯低於 GPT-5.5 與 Claude Opus 4.7,DeepSeek V4 Pro 也有強 coding 指標。
把 Kimi K2.6 視為值得測試的 coding 與 agentic 候選,但不要在直接證據不足時,把它稱為四者中的總冠軍。
Comments
0 comments