Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在無工具 Humanity’s Last Exam 以 46.9% 領先;GPT 5.5 則以 82.7% 拿下 Terminal Bench 2.0 [4][5]。 GPT 5.5 Pro 在工具輔助 HLE 以 57.2% 領先,也在 BrowseComp 以 90.1% 領先;DeepSeek V4 Pro Max 具競爭力,但主表未拿下單項第一 [4]。

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
光看排行榜,這場四方對決很容易被簡化成「誰最強」。但如果你要把模型放進產品、代理流程或內部評估,真正的問題不是總冠軍,而是:你的工作負載比較像哪一個基準測試?
目前最整齊的共同比較表,主要涵蓋 GPT-5.5、部分項目中的 GPT-5.5 Pro、Claude Opus 4.7,以及 DeepSeek-V4-Pro-Max;Kimi K2.6 的資料則多半出現在另外的比較文章或模型卡整理中,因此四方直接對照沒有那麼乾淨 。
凡是混用來源的列,都要特別小心。Kimi K2.6 在另一個 Kimi-focused 比較中的分數有參考價值,但可信度不能等同於在同一套測試環境中與 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 並排跑出的結果 。
GPT-5.5 最明確的勝項是 Terminal-Bench 2.0:82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% 。在這批可引用數據中,這是差距相當大的項目之一。
它在 OSWorld-Verified 也領先 Claude Opus 4.7,但差距很小:78.7% 對 78.0% 。在 FrontierMath Tiers 1–3 上,GPT-5.5 的優勢較明顯,為 51.7%,高於 Claude 的 43.8%
。
若任務重點是工具輔助推理或瀏覽,GPT-5.5 Pro 的位置更突出。它在 Humanity’s Last Exam with tools 取得 57.2%,高於 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 與 DeepSeek-V4-Pro-Max 的 48.2% 。在 BrowseComp 上,GPT-5.5 Pro 也以 90.1% 領先 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 與 Claude Opus 4.7 的 79.3%
。
不過,GPT-5.5 並非所有推理項目都領先。Claude Opus 4.7 在 GPQA Diamond 以 94.2% 小幅勝過 GPT-5.5 的 93.6% 。另有 GPT-5.5 指南列出 GPT-5.5-only 的領域結果,例如 Harvey BigLaw Bench 91.7%、內部投資銀行基準 88.5%、BixBench 80.5%;但因同一摘錄未列出 Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的對應分數,這些不應被解讀為四方勝利
。
Claude Opus 4.7 在主共用表中的無工具推理表現最好。它在 GPQA Diamond 達 94.2%,在 Humanity’s Last Exam 無工具為 46.9% 。同一張表中,Claude 也在 SWE-Bench Pro / SWE Pro 以 64.3% 領先,並在 MCP Atlas / MCPAtlas Public 以 79.1% 領先
。
Claude 在所引資料中的弱項,是終端機式操作。GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude 超過 13 個百分點;GPT-5.5 也在 OSWorld-Verified 與 FrontierMath Tiers 1–3 上領先 Claude 。
在多模態與文件方面,Claude 有目前最強的可引用訊號。有來源報告 Claude Opus 4.7 在 Vision & Document Arena 拿下第一,Document Arena 較 Opus 4.6 提升 4 分,並在 diagram、homework、OCR 子類別勝出 。但該來源沒有提供 GPT-5.5、DeepSeek V4、Kimi K2.6 的同場數字,因此這支持 Claude 的文件優勢,卻不構成完整四方多模態排名
。
資料中的 DeepSeek 標籤不只一種。主共用表使用 DeepSeek-V4-Pro-Max;Artificial Analysis 的比較則使用 DeepSeek V4 Pro,並列出 1,000k-token context window 。這些名稱不應自動視為完全可互換。
在主共用表中,DeepSeek-V4-Pro-Max 具競爭力,但沒有領先任何一列。它在 GPQA Diamond 為 90.1%,Humanity’s Last Exam 無工具為 37.7%,Humanity’s Last Exam with tools 為 48.2%,Terminal-Bench 2.0 為 67.9%,SWE-Bench Pro / SWE Pro 為 55.4%,BrowseComp 為 83.4%,MCP Atlas / MCPAtlas Public 為 73.6% 。
DeepSeek 最值得注意的引用說法,是成本效益而非單項跑分冠軍。VentureBeat 形容 DeepSeek V4 能以約 Opus 4.7 與 GPT-5.5 六分之一的成本,提供接近前沿的智慧 。這是把 DeepSeek 放進候選名單的理由,但不是跳過自家測試的理由。
若你關心長上下文,Artificial Analysis 的一個比較列出 DeepSeek V4 Pro 與 Claude Opus 4.7 同為 1,000k-token context window 。這只支持該比較中所列配置的相同上下文長度,不應擴大解讀成所有 DeepSeek 或 Claude 模式都一樣
。
Kimi K2.6 是這組模型中最難直接排名的一個,因為它沒有出現在 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 的主共用表中 。
一個 Kimi-focused 比較列出 K2.6 在 SWE-Bench Pro 為 58.6%、SWE-Bench Verified 為 80.2%、Terminal-Bench 2.0 為 66.7%、Humanity’s Last Exam with tools 為 54.0%、LiveCodeBench v6 為 89.6% 。該來源稱 K2.6 數字來自 Moonshot AI 官方模型卡,但比較對象主要是 Claude Opus 4.6 與 GPT-5.4,而不是本文這組精確四方名單
。
另一個 Kimi vs DeepSeek 比較列出 Kimi K2.6 在 Thinking mode 下 AIME 2026 為 96.4%、APEX Agents 為 27.9%,以及在 Thinking mode 與 context management 下 BrowseComp 為 83.2% 。同一來源中,DeepSeek-V4 Pro 的 BrowseComp 為 83.4%,但 AIME 2026 與 APEX Agents 沒有 DeepSeek 對應值
。
所以,Kimi K2.6 值得測,尤其是程式、代理式任務、數學與瀏覽場景;但現有來源不足以支撐它與 GPT-5.5、Claude Opus 4.7 在同一套基準上做總排名 。
這不是一張萬能排行榜。來源混用了 base 與 Pro 變體,包括 GPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7 與 Kimi K2.6 。部分數字也屬供應商報告;OpenAI 也註明其 GPT 的 ARC 評估以 reasoning effort 設為 xhigh,並在研究環境中執行,結果可能與 production ChatGPT 略有不同
。
差距很小的項目,只能當作方向性訊號。Claude 在 GPQA Diamond 對 GPT-5.5 的領先是 0.6 個百分點;GPT-5.5 在 OSWorld-Verified 對 Claude 的領先是 0.7 個百分點 。相對地,較大的差距更有操作價值:GPT-5.5 在 Terminal-Bench 2.0 對 Claude 的領先超過 13 個百分點,在 FrontierMath 對 Claude 的領先為 7.9 個百分點
。
實務結論很簡單:GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 之間沒有單一總冠軍。先找出最像你真實工作負載的基準測試,再用你實際能部署的模型重跑同一套評估,才是比較穩的選型方式。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在無工具 Humanity’s Last Exam 以 46.9% 領先;GPT 5.5 則以 82.7% 拿下 Terminal Bench 2.0 [4][5]。
Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在無工具 Humanity’s Last Exam 以 46.9% 領先;GPT 5.5 則以 82.7% 拿下 Terminal Bench 2.0 [4][5]。 GPT 5.5 Pro 在工具輔助 HLE 以 57.2% 領先,也在 BrowseComp 以 90.1% 領先;DeepSeek V4 Pro Max 具競爭力,但主表未拿下單項第一 [4]。
Kimi K2.6 有 SWE Bench、Terminal Bench、BrowseComp 等另表分數,但不在 GPT 5.5/Claude/DeepSeek 的同一主表中,不能硬排四方總名次 [4][11][13]。
Loading comments...
Comments
0 comments