| Claude Opus 4.7 |
| Humanity’s Last Exam,無工具 | 41.4% | 43.1% | 46.9% | 37.7% | — | Claude Opus 4.7 |
| Humanity’s Last Exam,有工具 | 52.2% | 57.2% | 54.7% | 48.2% | — | GPT-5.5 Pro |
| Terminal-Bench 2.0 | 82.7% | — | 69.4% | 67.9% | — | GPT-5.5 |
| SWE-Bench Pro / SWE Pro | 58.6% | — | 64.3% | 55.4% | LLM Stats 另列 0.59 | Claude Opus 4.7 |
| BrowseComp | 84.4% | 90.1% | 79.3% | 83.4% | DocsBot 另列 83.2% | GPT-5.5 Pro 在 VentureBeat 表內領先 |
| MCP Atlas / MCPAtlas Public | 75.3% | — | 79.1% | 73.6% | — | Claude Opus 4.7 |
呢張表反映一件事:如果只問「邊個最強」,答案會太粗疏。Claude Opus 4.7 喺多個 reasoning 同 software engineering 相關項目領先;GPT-5.5 Pro 喺有工具同 browsing 場景領先;GPT-5.5 喺 Terminal-Bench 2.0 領先;Kimi K2.6 則主要出現在 LLM Stats、DocsBot 等個別來源,未能同其他模型在同一完整表格逐項硬碰 。
VentureBeat 的直接對照表顯示,Claude Opus 4.7 在 GPQA Diamond 達 94.2%,高過 GPT-5.5 的 93.6% 及 DeepSeek-V4-Pro-Max 的 90.1% 。Claude 同 GPT-5.5 之間差距唔算大,但喺呢份數據入面,GPQA Diamond 的最高分仍然係 Claude Opus 4.7
。
另一個更能測試綜合難題能力嘅 Humanity’s Last Exam,若不使用工具,Claude Opus 4.7 得 46.9%,高過 GPT-5.5 Pro 的 43.1%、GPT-5.5 的 41.4%,以及 DeepSeek-V4-Pro-Max 的 37.7% 。如果你嘅核心工作係高難度知識問答、科學 reasoning,或者唔容許模型靠外部工具查資料,現有數據較支持先試 Claude Opus 4.7
。
Kimi K2.6 在 GPQA 亦有參考訊號:LLM Stats 列出 Kimi K2.6 為 0.91,而 Claude Opus 4.7 同 GPT-5.5 在同一 leaderboard 上經四捨五入後同為 0.94 。不過,呢個唔係 VentureBeat 嗰張 GPQA Diamond 直接對照表,所以比較時應該當成輔助資料,而唔係絕對排名
。
一開放工具,排名即刻變。Humanity’s Last Exam 有工具版本入面,GPT-5.5 Pro 達 57.2%,高過 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2%,以及 DeepSeek-V4-Pro-Max 的 48.2% 。
BrowseComp 亦偏向 GPT-5.5 Pro:VentureBeat 表內 GPT-5.5 Pro 達 90.1%,GPT-5.5 為 84.4%,DeepSeek-V4-Pro-Max 為 83.4%,Claude Opus 4.7 為 79.3% 。DocsBot 另列 Kimi K2.6 在 BrowseComp 為 83.2%,但該頁係 Kimi K2.6 同 DeepSeek-V4 Pro 的獨立比較,唔係 VentureBeat 同一張完整矩陣
。
Terminal-Bench 2.0 重要之處,在於佢唔係只叫模型答題,而係測試模型能否完成真實 CLI workflow,例如處理檔案、執行 script、debug,以及協調工具 。對需要模型進入 repo、跑 command、修 bug、做自動化流程嘅團隊嚟講,呢類 benchmark 比一般問答榜更貼近實際。
在 VentureBeat 表內,GPT-5.5 在 Terminal-Bench 2.0 達 82.7%,明顯高過 Claude Opus 4.7 的 69.4% 同 DeepSeek-V4-Pro-Max 的 67.9% 。如果你嘅主要 use case 係 agentic CLI、terminal automation、shell 內多步驟修復,GPT-5.5 喺現有數據入面優勢最明顯
。
SWE-Bench Pro 可視為更難嘅軟件工程測試訊號。LLM Stats 形容佢係 SWE-Bench 的進階版本,用嚟評估真實、複雜、需要長 reasoning 同多步驟解題嘅 software engineering 任務 。
VentureBeat 表內,Claude Opus 4.7 在 SWE-Bench Pro / SWE Pro 達 64.3%,高過 GPT-5.5 的 58.6% 同 DeepSeek-V4-Pro-Max 的 55.4% 。LLM Stats 亦列出 Claude Opus 4.7 為 0.64、GPT-5.5 為 0.59、Kimi K2.6 為 0.59、DeepSeek-V4-Pro-Max 為 0.55
。
兩個來源分數格式唔同,但方向一致:Claude Opus 4.7 在 SWE-Bench Pro 暫時較強;GPT-5.5 同 Kimi K2.6 在 LLM Stats 表內同為 0.59;DeepSeek-V4-Pro-Max 則低一級 。
DeepSeek-V4-Pro-Max 在 VentureBeat 的直接對照表入面,未有任何一項成為最高分:GPQA Diamond 90.1%、HLE 無工具 37.7%、HLE 有工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro 55.4%、BrowseComp 83.4%、MCP Atlas 73.6% 。
但 DeepSeek V4 的賣點唔係單項榜首,而係效能/成本。VentureBeat 形容 DeepSeek-V4 以約 Opus 4.7 與 GPT-5.5 六分之一成本,做到接近 state-of-the-art 的智能水平 。不過,Artificial Analysis 亦指出,DeepSeek V4 Pro Max 在 AA-Omniscience 得 -10,較 V3.2 Reasoning 的 -21 改善 11 分;同篇又指 V4 Pro 同 V4 Flash 的 hallucination rate 分別高達 94% 同 96%,即模型唔知道答案時仍然好大機會照答
。
要留意:呢啲來源冇提供 GPT-5.5、Claude Opus 4.7、Kimi K2.6 在同一 hallucination 指標下嘅完整對照,所以唔應該直接推論 DeepSeek V4 一定係全組最唔可靠 。比較穩妥嘅講法係:如果成本係優先考慮,DeepSeek V4 值得納入測試;但上 production 前,必須用你自己嘅真實資料、真實流程,特別測 hallucination 同錯誤處理
。
Kimi K2.6 係今次最難排位嘅模型,原因唔係完全冇分數,而係分數來自唔同平台、唔同上下文,未有同 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Max 放喺同一張完整 benchmark 矩陣入面 。
現有來源仍然有幾個值得睇嘅訊號。LLM Stats 列出 Kimi K2.6 在 GPQA 為 0.91,在 SWE-Bench Pro 為 0.59 。DocsBot 則列出 Kimi K2.6 在 AIME 2026 thinking mode 達 96.4%,APEX Agents thinking mode 為 27.9%,BrowseComp 為 83.2%;同一 DocsBot 頁亦列出 DeepSeek-V4 Pro 在 BrowseComp 為 83.4%
。
因此,合理結論唔係 Kimi K2.6 一定贏或者輸,而係:當你嘅任務同佢已有 benchmark 訊號吻合,Kimi K2.6 值得試;但最好自己跑內部 eval,唔好只靠幾個分散 leaderboard 決定 。
第一,GPT-5.5 Pro 只喺 VentureBeat 表內部分項目有分數,唔可以假設佢在冇報告嘅 benchmark 都一定領先或落後 。第二,Kimi K2.6 的資料主要來自 LLM Stats 同 DocsBot,並非與 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Max 同場逐項比較
。
第三,OpenAI 有 GPT-5.5 system card,當中提到以 CoT-Control 評估 GPT-5.5 的 controllability;CoT-Control 包括超過 13,000 個任務,由 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等既有 benchmark 建構而成 。呢個資料有助了解 GPT-5.5 的評估方法,但引用來源未提供 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 的同等 CoT-Control 結果,所以唔適合用嚟作橫向排名
。
一句講晒:Claude Opus 4.7 暫時較適合難 reasoning 同 SWE-Bench Pro;GPT-5.5 Pro 適合工具同 browsing;GPT-5.5 適合 terminal;DeepSeek V4 適合成本敏感但要嚴控 hallucination;Kimi K2.6 有值得測試嘅訊號,但仍欠完整同場比較 。
Comments
0 comments