沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3] Claude Opus 4.7 在高難度推理與軟體工程評測較強:VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9] Kimi K2.6 是值得測的 coding/agentic 與開放權重選項;DeepSeek V4 多數 raw score 不是最高,但 API 價格為每 100...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
如果只問誰最強,答案反而不精準。這四款模型的公開資料來自不同來源、不同評測、不同推理模式,交集並不完整。比較合理的讀法是:GPT-5.5 在 ARC 與終端機風格的代理任務特別亮眼,Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更佔優,Kimi K2.6 是有競爭力的 coding/agentic 與開放權重路線,DeepSeek V4 則多半不是 raw score 冠軍,但 API 價格很有吸引力。
表中的 — 代表提供的來源片段沒有可直接對照的分數。這點很重要:不同來源可能測的是不同模式、不同版本或不同任務設定。
最大問題不是沒有分數,而是分數不一定能放在同一把尺上。Artificial Analysis 比的是 GPT-5.5 medium、Kimi K2.6 與 Claude Opus 4.7 non-reasoning high;AkitaOnRails 使用 GPT-5.5 xHigh/Codex,並把 DeepSeek V4 Flash 與 DeepSeek V4 Pro 分開列;VentureBeat 又另外列出 GPT-5.5 與 GPT-5.5 Pro。
就算只看 GPT-5.5 與 Claude Opus 4.7,也不是單向輾壓。LLM Stats 指出,在兩家供應商都回報的 10 個 benchmark 中,Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;Claude 的優勢集中在 reasoning-heavy 與 review-grade 測試,GPT-5.5 的優勢則集中在 long-running tool-use 與 shell-driven 任務。
GPT-5.5 最有說服力的亮點是 ARC 與 Terminal-Bench。DocsBot 顯示,GPT-5.5 在 ARC-AGI-2 得到 85%,Claude Opus 4.7 為 75.8%;在 ARC-AGI-1,GPT-5.5 為 95%,Claude Opus 4.7 為 93.5%。
在 Terminal-Bench 2.0,GPT-5.5 得到 82.7%,明顯高於 Claude Opus 4.7 的 69.4% 與 DeepSeek 的 67.9%。 這類測試比較貼近會使用終端機、工具、命令列流程的代理型工作。
Artificial Analysis 也把 GPT-5.5 medium 列在 57,高於 Kimi K2.6 的 54 與 Claude Opus 4.7 non-reasoning high 的 52。 但這不是所有模式的總排名;LLM Stats 也同時顯示 Claude Opus 4.7 在部分推理與軟體工程評測中勝過 GPT-5.5。
Claude Opus 4.7 的強項比較集中在高難度推理、審查型任務與複雜程式碼理解。VentureBeat 列出的 Humanity’s Last Exam 無工具設定中,Claude Opus 4.7 為 46.9%,GPT-5.5 為 41.4%,DeepSeek 為 37.7%;使用工具後,Claude 為 54.7%,GPT-5.5 為 52.2%,DeepSeek 為 48.2%。
在 SWE-Bench Pro,DataCamp 列出 Claude Opus 4.7 得到 64.3%,GPT-5.5 為 58.6%,DeepSeek V4 Pro 為 55.4%。 這也符合 LLM Stats 的整體描述:Claude 在 GPQA、HLE 無工具、HLE 有工具、SWE-Bench Pro、MCP Atlas 與 FinanceAgent v1.1 領先 GPT-5.5。
Kimi K2.6 不容易被放進同一張完整排行榜,因為它沒有在每個來源中都和 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同場出現。Artificial Analysis 的可見片段中,Kimi K2.6 得到 54,低於 GPT-5.5 medium 的 57,但高於 Claude Opus 4.7 non-reasoning high 的 52。
在 AkitaOnRails 的 coding benchmark,Kimi K2.6 得到 87,低於 Claude Opus 4.7 的 97 與 GPT-5.5 xHigh/Codex 的 96,但高於 DeepSeek V4 Flash 的 78 與 DeepSeek V4 Pro 的 69。 Verdent 另列 SWE-Bench Verified:Kimi K2.6 為 80.2%,Claude Opus 4.7 為 87.6%。
Kimi 的實務差異在於開放權重與自架可能性。Verdent 指出,K2.6 weights 可在 Hugging Face 取得,並可透過 vLLM、SGLang 或 KTransformers 執行;同一來源也提到,在縮小 context 的 INT4 版本下,最低可行配置為 4× H100。 Hugging Face 的 README 還列出 Kimi K2.6 的 agentic 指標,例如 HLE-Full 搭配工具為 54.0、BrowseComp 為 83.2、DeepSearchQA f1-score 為 92.5、Toolathlon 為 50.0、MCPMark 為 55.9;但那張表主要把 Kimi 與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較,不是本文四款模型的完整同場對照。
在這批來源中,DeepSeek V4 比較像 value model,而不是最高 benchmark score 的模型。VentureBeat 顯示,DeepSeek 在 HLE 無工具、HLE 有工具與 Terminal-Bench 2.0 都低於 GPT-5.5 與 Claude Opus 4.7。 DataCamp 的 SWE-Bench Pro 也列出 DeepSeek V4 Pro 為 55.4%,低於 GPT-5.5 的 58.6% 與 Claude Opus 4.7 的 64.3%。
AkitaOnRails 的 coding benchmark 中,DeepSeek V4 Flash 為 78,DeepSeek V4 Pro 為 69,低於同表的 Kimi K2.6、GPT-5.5 xHigh/Codex 與 Claude Opus 4.7。
不過,價格會改變產品決策。Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元;GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元。 這不代表 DeepSeek 是 benchmark 冠軍,但若你的任務是大量草稿、低風險處理、內部評估或需要大量嘗試的流程,它可能是更划算的起點。
只看 benchmark,第一梯隊仍是 GPT-5.5 與 Claude Opus 4.7,但兩者強項不同。GPT-5.5 在 ARC 與 Terminal-Bench 的訊號更強;Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更有優勢。 Kimi K2.6 是強力 coding/agentic 候選,尤其在需要開放權重或自架路線時更值得注意,但它與另外三款模型的完整同場比較較少。
DeepSeek V4 在這批資料中的 raw score 多半不是最高,卻靠低 API 價格成為很有存在感的 price-performance 選項。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3] Claude Opus 4.7 在高難度推理與軟體工程評測較強:VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9]
Kimi K2.6 是值得測的 coding/agentic 與開放權重選項;DeepSeek V4 多數 raw score 不是最高,但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,價格優勢明顯。[2][6][8][13]
Loading comments...
Comments
0 comments