| Claude Opus 4.7 |
| Claude Opus 4.7 在 GPQA Diamond 為 94.2%,在 Humanity’s Last Exam no-tools 為 46.9%,均高於同表中的 GPT-5.5 與 DeepSeek-V4-Pro-Max。 |
| 高流量、成本敏感的 API 調用 | DeepSeek V4 | DeepSeek V4 的公開價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,低於 GPT-5.5 與 Claude Opus 4.7 的同口徑價格。 |
| 開源 coding-agent、長流程 coding 實驗 | Kimi K2.6 | DocsBot 將 Kimi K2.6 描述為 Moonshot AI 的 open-source native multimodal agentic model,具 256K context;但它缺少與另外三款完整同場的公開基準。 |
DeepSeek 的公開資料口徑不完全一致:價格來源多寫 DeepSeek V4 或 DeepSeek V4 Pro,部分 benchmark 則寫 DeepSeek-V4-Pro-Max。 下表保留來源中的名稱,避免把不同設定視為完全相同的模型配置。
Artificial Analysis 的可見摘要列出 Intelligence Index 前五名:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59、Claude Opus 4.7 Adaptive Reasoning, Max Effort 為 57,後面還有 Gemini 3.1 Pro Preview 與 GPT-5.4 xhigh 同為 57。
這只能支持一個有限結論:在該摘要可見的 Intelligence Index 領先模型中,GPT-5.5 排在 Claude Opus 4.7 前面。 它不能直接推出四款模型的完整總排名,因為同一可見摘要沒有給出 DeepSeek V4 與 Kimi K2.6 的同口徑 Intelligence Index 分數。
BrowseComp 偏向評估 agentic AI web browsing,尤其是高度容器化資訊查找;VentureBeat 摘要列出的結果是 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4%、Claude Opus 4.7 79.3%。 這代表在 web browsing 代理任務上,DeepSeek-V4-Pro-Max 與 GPT-5.5 的差距很小,但 Claude Opus 4.7 在同表中落後一些。
Terminal-Bench 2.0 的差距更明顯。VentureBeat 摘要列出 GPT-5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek 67.9%;Yahoo / Investing.com 也描述 Terminal-Bench 2.0 測試 command-line workflows,並列出 GPT-5.5 82.7%。
Kimi K2.6 的 Terminal-Bench 2.0 可見數字為 66.70%,但來源比較的是 Kimi K2.6、Claude Opus 4.6 與 GPT-5.4,不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的同場表。
DataCamp 的 DeepSeek V4 對比表列出 SWE-Bench Pro:DeepSeek V4 Pro 55.4%、GPT-5.5 58.6%、Claude Opus 4.7 64.3%。 Yahoo / Investing.com 也稱 GPT-5.5 在 SWE-Bench Pro 為 58.6%,而該測試評估 GitHub issue resolution。
Kimi K2.6 的 coding 數字值得單獨看。Verdent 摘要列出 Kimi K2.6 在 SWE-Bench Pro 為 58.60%、SWE-Bench Verified 為 80.20%、LiveCodeBench v6 為 89.60%;但同一摘要註明,Kimi K2.6 數字來源為 Moonshot AI official model card,且 SWE-Bench Pro 使用 Moonshot in-house harness。 因此,Kimi K2.6 可以列入 coding-agent 候選,但不適合直接拿這些數字硬排進四方總榜。
實務上,若任務是大型 repo 修復、code review 或長時間 coding agent,不應只看單一 SWE 分數。Claude Opus 4.7 在可見 SWE-Bench Pro 對比中最高;GPT-5.5 在 Terminal-Bench 2.0 這類長流程工具任務上領先;Kimi K2.6 則需要用自己的 repo 與工作流補測。
VentureBeat 摘要列出 GPQA Diamond:Claude Opus 4.7 94.2%、GPT-5.5 93.6%、DeepSeek-V4-Pro-Max 90.1%。同一摘要列出 Humanity’s Last Exam no-tools:Claude Opus 4.7 46.9%、GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7%。
LLM Stats 對 GPT-5.5 與 Claude Opus 4.7 的結論也指向同一方向:在雙方都報告的 10 個 benchmark 中,Claude Opus 4.7 領先 6 個,GPT-5.5 領先 4 個;Claude 的優勢集中在 reasoning-heavy 與 review-grade tests,而 GPT-5.5 的優勢集中在 long-running tool-use tests。
Mashable 摘要列出三款模型的 API 價格:DeepSeek V4 為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元,並標示 1M context window;GPT-5.5 為每 100 萬輸入 5 美元、輸出 30 美元,並標示 1M context window;Claude Opus 4.7 為每 100 萬輸入 5 美元、輸出 25 美元,並標示 1M context window。
DataCamp 的 DeepSeek V4 對比摘要也使用相同價格口徑,並列出 DeepSeek V4 Pro、GPT-5.5、Claude Opus 4.7 的 context window 約為 1M tokens。 在這些可見價格中,DeepSeek V4 明顯低於 GPT-5.5 與 Claude Opus 4.7;再加上 DeepSeek-V4-Pro-Max 在 BrowseComp 為 83.4%、接近 GPT-5.5 的 84.4%,它很適合作為成本敏感 API 路由的第一批測試對象。
Kimi K2.6 的同口徑 API 價格沒有出現在提供來源中;DocsBot 摘要則稱 Kimi K2.6 具 256K context,並將其描述為面向 long-horizon coding、coding-driven design、autonomous execution 與 swarm-based orchestration 的 open-source agentic model。
對多數產品團隊來說,最務實的答案不是「只買哪一個模型」,而是先建立分層路由與回歸測試:
若只用可見公開資料初篩,GPT-5.5 是 agentic tool-use 與可見綜合排名的最強候選;Claude Opus 4.7 是推理與 review-grade 任務的最強候選之一;DeepSeek V4 是價格最有吸引力的高性價比候選;Kimi K2.6 則應放進開源 / coding-agent 實驗池,但目前證據不足以公平排入完整四方總榜。
Comments
0 comments