報告已發布3 個月前Last edited 2 個月前20 個來源

GPT-5.5 對決 Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6：基準測試怎麼看才公平

GPT 5.5 是目前資料中最穩的全能型：Artificial Analysis Intelligence Index xhigh 為 60 分、high 為 59 分，BrowseComp 為 84.4% [2][3]。 Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 領先 GPT 5.5 的 58.6%，GPQA Diamond 也以 94.2% 小勝 GPT 5.5 的 93.6%；但 GPT 5.5 在 Terminal Bench 2.0 以 82.7% 明顯領先 Claude 的 69.4% [22][24]。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen — GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB
openai.com

把 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 排成單一冠軍榜，看起來痛快，卻容易誤導。現有資料不是同一個獨立測試單位、用同一套設定，把四個模型一次跑完；而是來自不同基準測試、不同模型版本、供應商發布資料與二手分析。

更實際的讀法是：哪一種工作負載，哪個模型的證據最強？就這批資料來看，GPT-5.5 是目前最有依據的全能型選擇；Claude Opus 4.7 在程式、知識與部分代理式任務上很突出；DeepSeek V4 的亮點是接近前段班的表現加上更低的 API 價格；Kimi K2.6 技術規格吸睛，但還不能用同一把尺公平排名。

先講結論：四個模型各自強在哪裡

GPT-5.5：目前證據中最穩的全能型。 在 Artificial Analysis 的 Intelligence Index 片段中，GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分，Claude Opus 4.7 則為 57 分。BrowseComp 中，GPT-5.5 為 84.4%，DeepSeek V4 為 83.4%，Claude Opus 4.7 為 79.3% 。

Claude Opus 4.7：程式與知識測試很強。 Claude 在 SWE-Bench Pro 以 64.3% 領先 GPT-5.5 的 58.6%，在 GPQA Diamond 也以 94.2% 小幅領先 GPT-5.5 的 93.6% 。但在 Terminal-Bench 2.0，GPT-5.5 以 82.7% 明顯高於 Claude Opus 4.7 的 69.4% 。

DeepSeek V4：性價比最搶眼。 VentureBeat 引述的 BrowseComp 數字顯示，DeepSeek V4 為 83.4%，只比 GPT-5.5 的 84.4% 低 1.0 個百分點，並高於 Claude Opus 4.7 的 79.3% 。Mashable 同時列出 DeepSeek V4 的 API 價格為每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元；GPT-5.5 則為 5／30 美元，Claude Opus 4.7 為 5／25 美元。

Kimi K2.6：規格有看頭，但不能硬排。 DocsBot 將 Kimi K2.6 描述為開放原始碼、原生多模態、代理式模型，採 1T 參數 MoE 架構、32B 啟用參數與 256K 上下文。問題是，提供的資料沒有足夠的直接基準測試數字，無法把它與 GPT-5.5、Claude Opus 4.7、DeepSeek V4 放進同一張可靠排名表。

一張表看懂目前格局

模型	最強的有據說法	來源中的關鍵數字	實務解讀
GPT-5.5	在可引用的 Artificial Analysis Intelligence Index 片段中領先	Intelligence Index：60 xhigh、59 high ；BrowseComp：84.4%，GPT-5.5 Pro：90.1% ；Terminal-Bench 2.0：82.7%	最適合作為預設全能起點，但不是每項測試都第一
Claude Opus 4.7	SWE-Bench、GPQA 與部分代理式任務表現突出	Intelligence Index：57 ；SWE-Bench Pro：64.3% ；SWE-Bench Verified：87.6% ；GPQA Diamond：94.2%	適合重視程式、審稿、知識推理與部分金融代理任務的團隊
DeepSeek V4	BrowseComp 幾乎追上 GPT-5.5	BrowseComp：83.4% ；API 價格：每 100 萬 input tokens 1.74 美元、output tokens 3.48 美元	若重視網路研究表現與成本，值得優先試用
Kimi K2.6	被描述為開放、多模態、長上下文的代理式模型	1T 參數 MoE、32B 啟用參數、256K 上下文	技術上值得觀察，但這批資料不足以做數字排名

為什麼這不是一張體育賽事排行榜？

基準測試像考試，但這裡不是同一張考卷。DataCamp 在相關前沿模型比較中提醒，部分基準測試數字是 vendor-reported，也就是由供應商自行回報；不同測試還可能使用不同 harness 設定。這代表某個模型在一種設定中領先，換到另一種設定可能就不一樣。

模型版本也不完全一致。Artificial Analysis 提到 GPT-5.5 xhigh、GPT-5.5 high，以及 Claude Opus 4.7 的 Adaptive Reasoning、Max Effort 設定。VentureBeat 則提到 DeepSeek-V4-Pro-Max 。這些設定差異會影響推理、程式、工具使用與代理式任務的結果。

所以，最公平的問題不是：誰永遠第一？而是：你要解決的任務，哪個模型的證據最強？

整體能力：GPT-5.5 在可用 Intelligence Index 片段中領先

目前資料中最清楚的整體指標，是 Artificial Analysis 的 Intelligence Index 片段。GPT-5.5 xhigh 以 60 分排第一，GPT-5.5 high 以 59 分排第二，Claude Opus 4.7 則在 Adaptive Reasoning、Max Effort 設定下為 57 分。

這支持一個審慎結論：在這個指標片段中，GPT-5.5 對 Claude Opus 4.7 有小幅但明確的優勢。不過，同一片段沒有提供 DeepSeek V4 與 Kimi K2.6 可直接引用的完整四方比較數字，因此不能把它當成四個模型的總決賽成績單。

BrowseComp：DeepSeek V4 最接近 GPT-5.5

BrowseComp 是目前較清楚的三方直接比較。VentureBeat 列出 GPT-5.5 Pro 為 90.1%、GPT-5.5 為 84.4%、DeepSeek V4 為 83.4%、Claude Opus 4.7 為 79.3% 。

模型或版本	BrowseComp 數字	解讀
GPT-5.5 Pro	90.1%	在這組數字中明顯領先
GPT-5.5	84.4%	略高於 DeepSeek V4
DeepSeek V4	83.4%	只比 GPT-5.5 低 1.0 個百分點
Claude Opus 4.7	79.3%	落後於 GPT-5.5 與 DeepSeek V4
Kimi K2.6	無可直接比較數字	不能公平排名

VentureBeat 也指出，DeepSeek-V4-Pro-Max 雖然接近頂尖模型，但在可直接比較的基準測試上，並未整體取代 GPT-5.5 或 Claude Opus 4.7 。換句話說，DeepSeek V4 在 BrowseComp 很亮眼，但不能只憑單一強項就宣布總冠軍。

程式與軟體工程：Claude 贏 SWE，GPT 贏 Terminal

程式類測試沒有單一贏家。Claude Opus 4.7 在 SWE-Bench Pro 得 64.3%，高於 GPT-5.5 的 58.6% 。Vellum 也列出 Claude Opus 4.7 在 SWE-Bench Verified 為 87.6% 。但 Terminal-Bench 2.0 反過來由 GPT-5.5 領先：GPT-5.5 為 82.7%，Claude Opus 4.7 為 69.4% 。

基準測試	GPT-5.5	Claude Opus 4.7	誰領先
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
SWE-Bench Verified	無可直接引用的 GPT-5.5 數字	87.6%	Claude 數字很強，但不是完整四方比較
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5 明顯領先

對 DeepSeek V4 與 Kimi K2.6 而言，提供資料不足以在同一張程式測試表中公平列出。VentureBeat 指出 DeepSeek V4 在多個可比較基準上接近頂尖模型，但可直接引用、最清楚的數字仍以 BrowseComp 為主。Kimi K2.6 的資料則主要是模型架構與能力描述，而不是完整的跨模型測試矩陣。

知識、推理與專業任務：領先者會換人

知識與推理測試中，GPT-5.5 和 Claude Opus 4.7 的差距很近，領先者取決於題型與工具設定。GPQA Diamond 中，GPT-5.5 為 93.6%，Claude Opus 4.7 為 94.2% 。Humanity’s Last Exam 不使用工具時，GPT-5.5 以 40.6% 領先 Claude Opus 4.7 的 31.2%；加入工具後，Claude Opus 4.7 則以 54.7% 小幅領先 GPT-5.5 的 52.2% 。

基準測試	GPT-5.5	Claude Opus 4.7	這組數字中的領先者
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7 小幅領先
Humanity’s Last Exam	40.6%	31.2%	GPT-5.5
Humanity’s Last Exam with tools	52.2%	54.7%	Claude Opus 4.7 小幅領先

專業與代理式任務也呈現互有勝負。Vellum 列出 GDPval 中 GPT-5.5 為 84.9%、Claude Opus 4.7 為 80.3%；OSWorld-Verified 中 GPT-5.5 為 78.7%、Claude 為 78.0%；MCP Atlas 則是 GPT-5.5 75.3%、Claude 79.1% 。OpenAI 列出的 FinanceAgent v1.1 中，GPT-5.5 為 60.0%，Claude Opus 4.7 為 64.4% 。

Anthropic 也提到一個內部 research-agent benchmark：Claude Opus 4.7 在六個模組中並列最高總分 0.715，在 General Finance 模組得 0.813，高於 Opus 4.6 的 0.767 。但這是內部基準，且沒有同時完整涵蓋四個模型，因此較適合作為 Claude 代理式能力的參考，不宜當作獨立四方排名。

價格與上下文：DeepSeek V4 的成本優勢最明顯

若要把模型放進產品或工作流程，價格往往和分數一樣重要。Mashable 引述的 API 價格中，DeepSeek V4 為每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元，並列出 100 萬 tokens 的上下文視窗。同一來源列出 GPT-5.5 為每 100 萬 input tokens 5 美元、output tokens 30 美元；Claude Opus 4.7 為 input tokens 5 美元、output tokens 25 美元，同樣標示 100 萬 tokens 上下文。

模型	每 100 萬 input tokens	每 100 萬 output tokens	來源中的上下文資訊
DeepSeek V4	1.74 美元	3.48 美元	100 萬 tokens
GPT-5.5	5 美元	30 美元	100 萬 tokens
Claude Opus 4.7	5 美元	25 美元	100 萬 tokens
Kimi K2.6	提供資料中無可靠價格	提供資料中無可靠價格	DocsBot 稱 256K tokens

Kimi K2.6 在這裡是特殊案例。DocsBot 描述它具備 256K 上下文、1T 參數 MoE 架構、32B 啟用參數，並可做最多 300 個子代理與 4,000 個協調步驟的任務編排。這些都是重要技術訊號，但仍不能替代直接、可比較的基準測試與價格資料。

如果要選模型，該怎麼開始？

你的重點是……	較合理的起點	原因
最強的有據整體表現	GPT-5.5	領先可用的 Intelligence Index 片段，BrowseComp 也高於 Claude Opus 4.7 並略高於 DeepSeek V4
以 SWE-Bench 為核心的軟體工程	Claude Opus 4.7	SWE-Bench Pro 高於 GPT-5.5，SWE-Bench Verified 也被列為 87.6%
Terminal、電腦操作與部分代理式執行	GPT-5.5	Terminal-Bench 2.0 明顯領先，GDPval 與 OSWorld-Verified 也高於 Claude Opus 4.7
網路研究與低 API 成本	DeepSeek V4	BrowseComp 達 83.4%，且引用資料中的 API 價格明顯更低
測試開放、多模態、代理式模型	Kimi K2.6	被描述為開放原始碼、原生多模態、代理式模型，但缺少完整直接比較資料

最後判斷

這場比較沒有一個模型「通吃」所有項目。GPT-5.5 是目前資料中最有把握的全能型，因為它領先 Artificial Analysis 片段，且在 BrowseComp 與多個專業基準中表現強。Claude Opus 4.7 仍是頂尖模型，特別是在 SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond，以及部分金融代理任務上。DeepSeek V4 則是最值得注意的性價比挑戰者，因為它在 BrowseComp 幾乎追上 GPT-5.5，引用資料中的 API 價格又低得多。

至於 Kimi K2.6，最公允的態度是先不高估、也不低估。它的架構與代理式能力描述很有吸引力，但若要把它放進同一張排行榜，仍需要更完整、直接、可重現的基準測試與價格資料。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問