| 高難度推理、審查、低容錯決策 | Claude Opus 4.7 | Claude Opus 4.7 在 GPQA Diamond 為 94.2%,Humanity’s Last Exam no-tools 為 46.9%,都高過同表中 GPT-5.5 同 DeepSeek-V4-Pro-Max。 |
| 高流量、成本敏感 API | DeepSeek V4 | DeepSeek V4 公開價為每 100 萬 input token 1.74 美元、output token 3.48 美元,低過 GPT-5.5 同 Claude Opus 4.7 同口徑價錢。 |
| 開源 coding-agent、長流程 coding 實驗 | Kimi K2.6 | DocsBot 將 Kimi K2.6 描述為 Moonshot AI 嘅 open-source native multimodal agentic model,具 256K context;但現時未見佢同另外三款完整同場嘅公開基準。 |
DeepSeek 嘅公開資料名稱唔完全一致:價錢來源多寫 DeepSeek V4 或 DeepSeek V4 Pro,部分 benchmark 則寫 DeepSeek-V4-Pro-Max。 下表保留來源原名,避免將唔同設定當成同一個模型配置。
Artificial Analysis 可見摘要列出 Intelligence Index 前五名:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59、Claude Opus 4.7 Adaptive Reasoning, Max Effort 為 57,後面仲有 Gemini 3.1 Pro Preview 同 GPT-5.4 xhigh 同為 57。
呢個資料只可以支持一個有限結論:喺該摘要可見嘅 Intelligence Index 領先模型入面,GPT-5.5 排喺 Claude Opus 4.7 前面。 但唔可以直接推出四款模型完整總排名,因為同一摘要無列出 DeepSeek V4 同 Kimi K2.6 嘅同口徑 Intelligence Index 分數。
LLM Stats 對 GPT-5.5 同 Claude Opus 4.7 嘅比較亦值得留意:喺雙方都有報告嘅 10 個 benchmark 入面,Claude Opus 4.7 領先 6 個,GPT-5.5 領先 4 個;Claude 優勢集中喺 reasoning-heavy 同 review-grade tests,而 GPT-5.5 優勢集中喺 long-running tool-use tests。
如果你要模型自己查資料、開工具、跑 command line、跨多個步驟完成工作,GPT-5.5 係現有公開數字入面最值得先試嘅高端基準。
BrowseComp 偏向量度 agentic AI web browsing,尤其係高度容器化資訊查找;VentureBeat 摘要列出 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4%、Claude Opus 4.7 79.3%。 換句話講,DeepSeek-V4-Pro-Max 喺 web browsing 代理任務上同 GPT-5.5 差距好細,但 Claude Opus 4.7 喺同表中落後少少。
Terminal-Bench 2.0 差距更明顯。VentureBeat 摘要列出 GPT-5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek 67.9%;Yahoo / Investing.com 亦描述 Terminal-Bench 2.0 測試 command-line workflows,並列出 GPT-5.5 82.7%。
OpenAI 官方亦列出 GPT-5.5 在 GDPval 為 84.9%、OSWorld-Verified 為 78.7%、Tau2-bench Telecom 為 98.0%,呢啲都係同工具使用、知識工作或流程執行相關嘅公開數字。
如果任務係高難度推理、審核、風險判斷,Claude Opus 4.7 嘅可見優勢更清楚。VentureBeat 摘要列出 GPQA Diamond:Claude Opus 4.7 94.2%、GPT-5.5 93.6%、DeepSeek-V4-Pro-Max 90.1%。同一摘要列出 Humanity’s Last Exam no-tools:Claude Opus 4.7 46.9%、GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7%。
呢個方向亦同 LLM Stats 嘅分類吻合:Claude Opus 4.7 領先嘅項目集中喺 reasoning-heavy 同 review-grade tests;GPT-5.5 則更強喺長時間工具使用任務。
DataCamp 嘅 DeepSeek V4 對比表列出 SWE-Bench Pro:DeepSeek V4 Pro 55.4%、GPT-5.5 58.6%、Claude Opus 4.7 64.3%。 Yahoo / Investing.com 亦稱 GPT-5.5 在 SWE-Bench Pro 為 58.6%,而 SWE-Bench Pro 評估 GitHub issue resolution。
Kimi K2.6 嘅 coding 數字值得單獨睇。Verdent 摘要列出 Kimi K2.6 在 SWE-Bench Pro 為 58.60%、SWE-Bench Verified 為 80.20%、LiveCodeBench v6 為 89.60%;但同一摘要註明,Kimi K2.6 數字來源為 Moonshot AI official model card,而且 SWE-Bench Pro 使用 Moonshot in-house harness。
實務上,若任務係大型 repo 修復、code review 或長時間 coding agent,唔應該只睇單一 SWE 分數。Claude Opus 4.7 喺可見 SWE-Bench Pro 對比中最高;GPT-5.5 喺 Terminal-Bench 2.0 呢類長流程工具任務上領先;Kimi K2.6 就要用你自己嘅 repo、工具鏈同成功標準補測。
Mashable 摘要列出三款模型 API 價錢:DeepSeek V4 為每 100 萬 input token 1.74 美元、每 100 萬 output token 3.48 美元,並標示 1M context window;GPT-5.5 為每 100 萬 input 5 美元、output 30 美元,並標示 1M context window;Claude Opus 4.7 為每 100 萬 input 5 美元、output 25 美元,並標示 1M context window。
DataCamp 嘅 DeepSeek V4 對比摘要亦用相同價錢口徑,並列出 DeepSeek V4 Pro、GPT-5.5、Claude Opus 4.7 嘅 context window 約為 1M tokens。 喺呢批可見價錢入面,DeepSeek V4 明顯低過 GPT-5.5 同 Claude Opus 4.7;再加上 DeepSeek-V4-Pro-Max 在 BrowseComp 為 83.4%、接近 GPT-5.5 嘅 84.4%,佢好適合作為成本敏感 API routing 嘅第一批測試對象。
Kimi K2.6 嘅同口徑 API 價錢未見於提供來源;DocsBot 摘要則稱 Kimi K2.6 具 256K context,並將其描述為面向 long-horizon coding、coding-driven design、autonomous execution 同 swarm-based orchestration 嘅 open-source agentic model。
對產品同工程團隊嚟講,最實際答案通常唔係「買邊一隻」,而係先建立分層路由同回歸測試:
如果只用可見公開資料初篩,GPT-5.5 係 agentic tool-use 同可見綜合排名嘅強候選;Claude Opus 4.7 係推理同 review-grade 任務嘅強候選;DeepSeek V4 係價錢最有吸引力嘅高性價比候選;Kimi K2.6 則應放入開源 / coding-agent 實驗池,但目前證據不足以公平排入完整四方總榜。
Comments
0 comments