在本文可引用資料中,四個目標模型都能找到分數的共同項目是 Terminal-Bench 2.0。按公開表格列出的數字,排序如下:
| 模型 | Terminal-Bench 2.0 | 來源 |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI 發布頁與 MLQ.ai 摘要 |
| Claude Opus 4.7 | 69.4% | OpenAI 發布頁 |
| DeepSeek V4-Pro Max | 67.9% | DeepSeek V4-Pro 模型卡 |
| Kimi K2.6 Thinking | 66.7% | DeepSeek V4-Pro 模型卡 |
這能支持的結論很窄,但很有用:在 Terminal-Bench 2.0 這個單項上,GPT-5.5 明顯領先,Claude Opus 4.7 排第二,DeepSeek V4-Pro Max 與 Kimi K2.6 Thinking 相當接近。 但這不能自動推出 GPT-5.5 在所有業務場景都領先,也不能取代同一評測框架、同一工具權限、同一上下文長度與同一推理預算下的復測。
| Benchmark(OpenAI 表) | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
比較穩妥的說法是:在 OpenAI 自家列出的這些項目裡,GPT-5.5 強於 Claude Opus 4.7。 OpenAI 的系統卡也把 GPT-5.5 定位為面向複雜真實工作的模型,涵蓋寫程式、線上研究、分析資訊、建立文件與試算表,以及跨工具完成任務等場景。
DeepSeek V4-Pro 模型卡提供 DS-V4-Pro Max 與 K2.6 Thinking 的多項表內對比。 在這張表裡,DeepSeek V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking,但 Kimi 也有明確領先的項目。
| Benchmark(DeepSeek 模型卡) | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | 表內領先 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
這組資料的合理讀法是:在 DeepSeek 模型卡列出的多數項目上,DS-V4-Pro Max 高於 K2.6 Thinking;但 Kimi K2.6 Thinking 在 GPQA Diamond 與 SWE Pro 上領先。 其中 MMLU-Pro 和 Terminal-Bench 2.0 的差距不大,做產品決策時不宜只看領先方向,也要看任務類型與可接受的誤差空間。
最容易誤讀的做法,是把 OpenAI 表、DeepSeek 表和 Anthropic 功能文件裡的資訊直接合併,再算出一個總冠軍。以目前公開資料來看,這樣做證據不足,主要有三個原因:
換句話說,公開 benchmark 適合當第一層篩選,不適合單獨當成採購、架構選型或產品路線的最後依據。
如果你要把模型放進產品或內部工作流,建議分三層看:
如果產品依賴很長的代理式工作循環,Claude Opus 4.7 的 task budgets
如果產品更接近複雜程式開發、線上研究、文件或試算表生成、跨工具操作,GPT-5.5 系統卡對這些場景的描述更直接相關。 但即使某個模型在公開表上領先,仍然要放進你的程式碼庫、工具鏈、權限邊界與失敗恢復規則裡復測。
Comments
0 comments