| Claude Opus 4.7,GPT-5.5 緊隨其後 |
| VentureBeat 共享表格入面,Claude 領先 GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlas;GPT-5.5 贏 Terminal-Bench 2.0 同基本 BrowseComp,GPT-5.5 Pro 則喺有列出嘅 HLE with tools 同 BrowseComp 領先。 |
| 旗艦級 API 成本 | DeepSeek V4 | Mashable 列 DeepSeek V4 為每 100 萬 input tokens $1.74、output tokens $3.48,低過 GPT-5.5 的 $5/$30 同 Claude Opus 4.7 的 $5/$25。 |
| 已披露 coding/競賽編程數據 | DeepSeek V4 Pro | Together AI 列 DeepSeek V4 Pro 為 93.5% LiveCodeBench、Codeforces 3206、80.6% SWE-Bench Verified、76.2% SWE-Bench Multilingual。 |
| Kimi K2.6 評估 | 有潛力,但未算定案 | Kimi K2.6 有 coding 同 agentic 數據,但現有 Kimi 相關證據多數係同 GPT-5.4、Claude Opus 4.6 比,而唔係直接對 GPT-5.5、Claude Opus 4.7。 |
現有來源入面,最乾淨嘅整體信號來自 Artificial Analysis。佢列 GPT-5.5 xhigh 的 Intelligence Index 為 60、GPT-5.5 high 為 59;Claude Opus 4.7 Adaptive Reasoning Max Effort 則為 57。
Kimi K2.6 喺可見嘅綜合指標片段入面低過呢個 GPT-5.5/Claude 梯隊。OpenRouter 列 Kimi K2.6 為 53.9 Intelligence、47.1 Coding、66.0 Agentic;LLMBase 的 DeepSeek V4 Flash High vs Kimi K2.6 比較亦列 Kimi 為 53.9 Intelligence、47.1 Coding。 同一個 LLMBase 比較列 DeepSeek V4 Flash High 為 44.9 Intelligence、39.8 Coding,但要留意,呢個係 Flash 版本,唔係 DeepSeek V4 Pro 或 Pro-Max。
重點係:整體排名對 GPT-5.5 vs Claude Opus 4.7 有清晰信號,但目前並無一條完整、同場四方 leaderboard,同時列出 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro-Max 同 Kimi K2.6。
VentureBeat 的共享 benchmark 表,係現有資料中較適合用來比較 DeepSeek-V4-Pro-Max、GPT-5.5、部分列出的 GPT-5.5 Pro,以及 Claude Opus 4.7 的來源。
所以,唔係一面倒。Claude Opus 4.7 喺 GPQA Diamond、HLE no-tools、SWE-Bench Pro 同 MCP Atlas 較有說服力;GPT-5.5 基本版則喺 Terminal-Bench 2.0 同 BrowseComp 表現較強,而 GPT-5.5 Pro 喺 VentureBeat 有列出嘅 HLE with tools 同 BrowseComp 最高。
DeepSeek-V4-Pro-Max 喺幾項都算貼近,但喺呢張共享表入面,未有一項贏過 GPT-5.5 或 Claude Opus 4.7 的最佳結果。最接近係 BrowseComp:DeepSeek-V4-Pro-Max 83.4%,GPT-5.5 84.4%,Claude Opus 4.7 79.3%。
如果係 repository 層面嘅軟件工程任務,Claude Opus 4.7 喺 VentureBeat 共享表的 SWE-Bench Pro 結果最強:64.3%,高過 GPT-5.5 的 58.6% 同 DeepSeek-V4-Pro-Max 的 55.4%。
不過 DeepSeek V4 Pro 有現有來源入面最完整嘅 coding 指標披露。Together AI 列 DeepSeek V4 Pro 為 93.5% LiveCodeBench、Codeforces 3206、80.6% SWE-Bench Verified、76.2% SWE-Bench Multilingual。 NVIDIA 的 model card 亦按 DeepSeek V4 Flash、V4 Pro 等版本拆出 GPQA Diamond、HLE、LiveCodeBench、Codeforces 等 benchmark,其中 V4-Pro Max 顯示 LiveCodeBench 93.5、Codeforces 3206。
Kimi K2.6 亦有值得留意嘅 coding 證據,但最強嘅 Kimi 相關表格多數係同上一代或較早競爭對手比較。Lorka 列 Kimi K2.6 為 58.6% SWE-Bench Pro、54.0% HLE-Full with tools、90.5% GPQA-Diamond、79.4% MMMU-Pro,表格比較對象包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro。 Verdent 則列 Kimi K2.6 為 80.2% SWE-Bench Verified、66.7% Terminal-Bench 2.0、54.0% HLE with tools、89.6% LiveCodeBench v6,並提到 Opus 4.7 喺 SWE-Bench Verified 以 87.6% 領先。
如果 API 成本係核心考慮,DeepSeek V4 係最有價格說服力嗰個。Mashable 列 DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48;GPT-5.5 為 $5/$30,Claude Opus 4.7 為 $5/$25。
但唔好假設所有 endpoint 都有同一個 context limit。Mashable 喺收費比較中列 DeepSeek V4、GPT-5.5、Claude Opus 4.7 都係 1M context window;但 OpenRouter 的 DeepSeek V4 Pro listing 顯示 256K max tokens、66K max output tokens。 真正落 production 前,要核實你實際會 call 嘅 provider、模型版本同 reasoning mode。
如果你嘅決策主要睇現有整體排名,GPT-5.5 係較安全嘅 default。Artificial Analysis 列 GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59,係提供片段入面 Intelligence Index 的頭兩位。
佢喺 VentureBeat 共享表亦有兩個突出項目:Terminal-Bench 2.0 為 82.7%,基本 GPT-5.5 的 BrowseComp 為 84.4%;而 GPT-5.5 Pro 喺有列出時 BrowseComp 為 90.1%。
Claude Opus 4.7 喺整體排名緊貼 GPT-5.5:Artificial Analysis 將 Claude Opus 4.7 Adaptive Reasoning Max Effort 的 Intelligence Index 列為 57。 喺 VentureBeat 共享表,佢喺 GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlas 都領先 GPT-5.5 同 DeepSeek-V4-Pro-Max。
Anthropic 自家發布資料亦提到內部 research-agent benchmark:Claude Opus 4.7 喺六個 module 的整體分數並列第一,為 0.715;General Finance 分數為 0.813,高過 Opus 4.6 的 0.767。 不過呢類屬於廠方內部 benchmark,應視為補充背景,而唔係中立 leaderboard 證據。
DeepSeek V4 最明顯嘅優勢係價錢。Mashable 比較中,佢每 100 萬 input/output tokens 價格係 $1.74/$3.48,明顯低過 GPT-5.5 的 $5/$30 同 Claude Opus 4.7 的 $5/$25。
DeepSeek V4 Pro 亦有強 coding 指標,包括 Together AI 列出嘅 93.5% LiveCodeBench、Codeforces 3206、80.6% SWE-Bench Verified、76.2% SWE-Bench Multilingual。 取捨係:喺 VentureBeat 共享表,DeepSeek-V4-Pro-Max 即使部分項目接近,例如 BrowseComp,都仍然落後於 GPT-5.5 或 Claude Opus 4.7 的最佳結果。
Kimi K2.6 最難下定論,因為現有 Kimi-focused benchmark 多數係同 GPT-5.4、Claude Opus 4.6 比,而唔係直接同 GPT-5.5、Claude Opus 4.7 比。 但佢嘅信號唔弱:OpenRouter 列 Kimi K2.6 為 53.9 Intelligence、47.1 Coding、66.0 Agentic;Verdent 則列 80.2% SWE-Bench Verified 同 89.6% LiveCodeBench v6。
所以唔應該理解成 Kimi K2.6「唔掂」。更準確係:直接證據較薄。如果 Kimi 嘅價格、部署路線或者 agentic 行為啱你現有 stack,佢值得做實測;但就現有資料而言,未足以稱佢為對 GPT-5.5 或 Claude Opus 4.7 的整體勝者。
如果你最重視現有整體智能排名,揀 GPT-5.5 較有根據。 如果你嘅工作似 GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlas 呢類硬推理或軟件工程項目,Claude Opus 4.7 更有說服力。
如果你重視 price-performance,而且可以驗證自己要用嘅 V4 版本,DeepSeek V4 嘅 API 價格明顯低過 GPT-5.5 同 Claude Opus 4.7,DeepSeek V4 Pro 亦有強 coding 指標。
至於 Kimi K2.6,應視為有潛力嘅 coding/agentic 候選,但以現有直接證據,未足以稱為整體擊敗 GPT-5.5 或 Claude Opus 4.7。
Comments
0 comments