studioglobal
熱門探索內容
報告已發布9 個來源

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?

公開數據不支持單一「總冠軍」:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7][4] DeepSeek V4 的最大優勢是成本:公開摘要列出每 100 萬 token 輸入 / 輸出為 1.74 / 3.48 美元,低於 GPT 5.5 的 5 / 30 美元與 Claude Opus 4.7 的 5 / 25 美元。[1][17]...

17K0
四款 AI 模型在基準測試與 API 價格上比較的抽象儀表板
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較AI 生成配圖:比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的性能與成本取捨。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://

openai.com

把 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 排成一張絕對總榜,很容易誤導。現有公開資料來自不同測試來源、不同推理強度與不同 harness;LLM Stats 也提醒,GPT-5.5 與 Claude Opus 4.7 的部分分數屬於供應商在高推理 tier 下自報,形狀可比,但方法論不完全一致。[3] 更可靠的讀法,是先按任務拆開:工具型代理看 GPT-5.5,推理與審查看 Claude Opus 4.7,成本敏感 API 看 DeepSeek V4,開源 coding-agent 探索再把 Kimi K2.6 放進實測清單。[3][4][5][7]

快速選型:先測哪一款?

你的主要需求優先測試依據
Agentic web browsing、終端機自動化、跨工具工作流GPT-5.5GPT-5.5 在 BrowseComp 為 84.4%,Terminal-Bench 2.0 為 82.7%,兩者都高於 VentureBeat 摘要中列出的 Claude Opus 4.7 與 DeepSeek-V4-Pro-Max 對應數字。[7]
高難度推理、審查、低容錯決策Claude Opus 4.7Claude Opus 4.7 在 GPQA Diamond 為 94.2%,在 Humanity’s Last Exam no-tools 為 46.9%,均高於同表中的 GPT-5.5 與 DeepSeek-V4-Pro-Max。[7]
高流量、成本敏感的 API 調用DeepSeek V4DeepSeek V4 的公開價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,低於 GPT-5.5 與 Claude Opus 4.7 的同口徑價格。[1][17]
開源 coding-agent、長流程 coding 實驗Kimi K2.6DocsBot 將 Kimi K2.6 描述為 Moonshot AI 的 open-source native multimodal agentic model,具 256K context;但它缺少與另外三款完整同場的公開基準。[5][4]

核心 benchmark 與價格對照

DeepSeek 的公開資料口徑不完全一致:價格來源多寫 DeepSeek V4 或 DeepSeek V4 Pro,部分 benchmark 則寫 DeepSeek-V4-Pro-Max。[1][7][17] 下表保留來源中的名稱,避免把不同設定視為完全相同的模型配置。

指標GPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Artificial Analysis Intelligence Indexxhigh 60;high 59。[2]Adaptive Reasoning, Max Effort 57。[2]提供摘要未列出同口徑分數。[2]提供摘要未列出同口徑分數。[2]
BrowseComp84.4%。[7]79.3%。[7]DeepSeek-V4-Pro-Max 83.4%。[7]未見四方同場分數。
Terminal-Bench 2.082.7%。[7][31]69.4%。[7]67.9%。[7]66.70%,但來自 Kimi K2.6、Claude Opus 4.6、GPT-5.4 的另一組比較,不是四方同場。[4]
SWE-Bench Pro58.6%。[17][31]64.3%。[17]DeepSeek V4 Pro 55.4%。[17]58.60%,但 Verdent 註明使用 Moonshot in-house harness,且比較對象不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的完整同場。[4]
GPQA Diamond93.6%。[7]94.2%。[7]DeepSeek-V4-Pro-Max 90.1%。[7]未見四方同場分數。
Humanity’s Last Exam,no tools41.4%;GPT-5.5 Pro 為 43.1%。[7]46.9%。[7]37.7%。[7]未見四方同場分數。
API 價格,輸入 / 輸出,每 100 萬 token5 / 30 美元;1M context window。[1]5 / 25 美元;1M context window。[1]1.74 / 3.48 美元;1M context window。[1]提供來源未給出同口徑價格;DocsBot 摘要稱 context 為 256K。[5]

1. 綜合排名:GPT-5.5 在可見 Intelligence Index 領先

Artificial Analysis 的可見摘要列出 Intelligence Index 前五名:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59、Claude Opus 4.7 Adaptive Reasoning, Max Effort 為 57,後面還有 Gemini 3.1 Pro Preview 與 GPT-5.4 xhigh 同為 57。[2]

這只能支持一個有限結論:在該摘要可見的 Intelligence Index 領先模型中,GPT-5.5 排在 Claude Opus 4.7 前面。[2] 它不能直接推出四款模型的完整總排名,因為同一可見摘要沒有給出 DeepSeek V4 與 Kimi K2.6 的同口徑 Intelligence Index 分數。[2]

2. Agentic browsing 與 terminal:GPT-5.5 最強,DeepSeek browsing 很接近

BrowseComp 偏向評估 agentic AI web browsing,尤其是高度容器化資訊查找;VentureBeat 摘要列出的結果是 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4%、Claude Opus 4.7 79.3%。[7] 這代表在 web browsing 代理任務上,DeepSeek-V4-Pro-Max 與 GPT-5.5 的差距很小,但 Claude Opus 4.7 在同表中落後一些。[7]

Terminal-Bench 2.0 的差距更明顯。VentureBeat 摘要列出 GPT-5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek 67.9%;Yahoo / Investing.com 也描述 Terminal-Bench 2.0 測試 command-line workflows,並列出 GPT-5.5 82.7%。[7][31]

Kimi K2.6 的 Terminal-Bench 2.0 可見數字為 66.70%,但來源比較的是 Kimi K2.6、Claude Opus 4.6 與 GPT-5.4,不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的同場表。[4]

3. Coding / SWE:Claude 的 SWE-Bench Pro 數字較高,但工具流程要另看

DataCamp 的 DeepSeek V4 對比表列出 SWE-Bench Pro:DeepSeek V4 Pro 55.4%、GPT-5.5 58.6%、Claude Opus 4.7 64.3%。[17] Yahoo / Investing.com 也稱 GPT-5.5 在 SWE-Bench Pro 為 58.6%,而該測試評估 GitHub issue resolution。[31]

Kimi K2.6 的 coding 數字值得單獨看。Verdent 摘要列出 Kimi K2.6 在 SWE-Bench Pro 為 58.60%、SWE-Bench Verified 為 80.20%、LiveCodeBench v6 為 89.60%;但同一摘要註明,Kimi K2.6 數字來源為 Moonshot AI official model card,且 SWE-Bench Pro 使用 Moonshot in-house harness。[4] 因此,Kimi K2.6 可以列入 coding-agent 候選,但不適合直接拿這些數字硬排進四方總榜。[4]

實務上,若任務是大型 repo 修復、code review 或長時間 coding agent,不應只看單一 SWE 分數。Claude Opus 4.7 在可見 SWE-Bench Pro 對比中最高;GPT-5.5 在 Terminal-Bench 2.0 這類長流程工具任務上領先;Kimi K2.6 則需要用自己的 repo 與工作流補測。[17][7][4]

4. 高難度推理:Claude Opus 4.7 的可見優勢更明確

VentureBeat 摘要列出 GPQA Diamond:Claude Opus 4.7 94.2%、GPT-5.5 93.6%、DeepSeek-V4-Pro-Max 90.1%。同一摘要列出 Humanity’s Last Exam no-tools:Claude Opus 4.7 46.9%、GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7%。[7]

LLM Stats 對 GPT-5.5 與 Claude Opus 4.7 的結論也指向同一方向:在雙方都報告的 10 個 benchmark 中,Claude Opus 4.7 領先 6 個,GPT-5.5 領先 4 個;Claude 的優勢集中在 reasoning-heavy 與 review-grade tests,而 GPT-5.5 的優勢集中在 long-running tool-use tests。[3]

5. 價格與 context:DeepSeek V4 的成本優勢最清楚

Mashable 摘要列出三款模型的 API 價格:DeepSeek V4 為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元,並標示 1M context window;GPT-5.5 為每 100 萬輸入 5 美元、輸出 30 美元,並標示 1M context window;Claude Opus 4.7 為每 100 萬輸入 5 美元、輸出 25 美元,並標示 1M context window。[1]

DataCamp 的 DeepSeek V4 對比摘要也使用相同價格口徑,並列出 DeepSeek V4 Pro、GPT-5.5、Claude Opus 4.7 的 context window 約為 1M tokens。[17] 在這些可見價格中,DeepSeek V4 明顯低於 GPT-5.5 與 Claude Opus 4.7;再加上 DeepSeek-V4-Pro-Max 在 BrowseComp 為 83.4%、接近 GPT-5.5 的 84.4%,它很適合作為成本敏感 API 路由的第一批測試對象。[1][7][17]

Kimi K2.6 的同口徑 API 價格沒有出現在提供來源中;DocsBot 摘要則稱 Kimi K2.6 具 256K context,並將其描述為面向 long-horizon coding、coding-driven design、autonomous execution 與 swarm-based orchestration 的 open-source agentic model。[5]

建議的實務架構:不要選單一模型,先做路由

對多數產品團隊來說,最務實的答案不是「只買哪一個模型」,而是先建立分層路由與回歸測試:

  1. 用 GPT-5.5 當高端 agentic 基準。 它在 BrowseComp、Terminal-Bench 2.0,以及 OpenAI 官方列出的 GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0% 等工具與知識工作相關 benchmark 上都有強勢公開數字。[7][23]
  2. 用 Claude Opus 4.7 測推理、審查與低容錯任務。 它在 GPQA Diamond、Humanity’s Last Exam no-tools,以及 LLM Stats 歸類的 reasoning-heavy / review-grade tests 中更突出。[7][3]
  3. 用 DeepSeek V4 壓低高流量 API 成本。 它的公開 token 價格低於 GPT-5.5 與 Claude Opus 4.7,同時在 BrowseComp 上接近 GPT-5.5。[1][7]
  4. 把 Kimi K2.6 放進開源 coding-agent 實驗池。 它有可見 coding 與 agentic 指標,但目前缺少與 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的完整同場基準,因此更適合用自家 repo、工具鏈與部署條件實測。[4][5]

這次比較的限制

  • 不是所有模型都有同場、同設定 benchmark。 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 在 VentureBeat 摘要中有部分同表數字;Kimi K2.6 主要來自另一組與 Claude Opus 4.6、GPT-5.4 的比較。[7][4]
  • 模型配置可能不同。 Artificial Analysis 摘要中的 GPT-5.5 分為 xhigh / high,Claude Opus 4.7 是 Adaptive Reasoning, Max Effort;VentureBeat 使用 DeepSeek-V4-Pro-Max,這些不一定等同於一般 API 預設模式。[2][7]
  • 自報與第三方分數不能完全等同。 LLM Stats 明確提醒,GPT-5.5 與 Claude Opus 4.7 的部分分數是供應商在高推理 tier 下自報,方法論不完全一致。[3]
  • 公開 benchmark 只能決定測試優先順序。 BrowseComp 偏 web browsing 代理,Terminal-Bench 2.0 偏 command-line workflows,SWE-Bench Pro 偏 GitHub issue resolution;它們不能替代你自己的真實任務評估。[7][31]

最終判斷

若只用可見公開資料初篩,GPT-5.5 是 agentic tool-use 與可見綜合排名的最強候選;Claude Opus 4.7 是推理與 review-grade 任務的最強候選之一;DeepSeek V4 是價格最有吸引力的高性價比候選;Kimi K2.6 則應放進開源 / coding-agent 實驗池,但目前證據不足以公平排入完整四方總榜。[2][3][1][4][5]

採購或上線前,建議用同一批真實任務做回歸測試:同一 prompt、同一工具權限、同一上下文長度、同一成功判準。公開 benchmark 的價值,是幫你決定先測誰;最終選型,仍應由你的產品場景、錯誤成本與 token 成本共同決定。[3][7][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • 公開數據不支持單一「總冠軍」:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7][4]
  • DeepSeek V4 的最大優勢是成本:公開摘要列出每 100 萬 token 輸入 / 輸出為 1.74 / 3.48 美元,低於 GPT 5.5 的 5 / 30 美元與 Claude Opus 4.7 的 5 / 25 美元。[1][17]
  • 實務選型可按任務分流:GPT 5.5 先測工具代理與瀏覽,Claude Opus 4.7 先測推理與審查,DeepSeek V4 先測高流量 API,Kimi K2.6 放進開源 coding agent 實驗池。[3][5][7]

大家也會問

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?」的簡短答案是什麼?

公開數據不支持單一「總冠軍」:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7][4]

最值得優先驗證的重點是什麼?

公開數據不支持單一「總冠軍」:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7][4] DeepSeek V4 的最大優勢是成本:公開摘要列出每 100 萬 token 輸入 / 輸出為 1.74 / 3.48 美元,低於 GPT 5.5 的 5 / 30 美元與 Claude Opus 4.7 的 5 / 25 美元。[1][17]

接下來在實務上該怎麼做?

實務選型可按任務分流:GPT 5.5 先測工具代理與瀏覽,Claude Opus 4.7 先測推理與審查,DeepSeek V4 先測高流量 API,Kimi K2.6 放進開源 coding agent 實驗池。[3][5][7]

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基準測試,並盡可能全面地進行比較。

Studio Global AI35 個來源

附引用的答案

基於你提供的證據,能比較出的結論是:GPT-5.5 在可見的綜合智能排名與 BrowseComp 中領先;DeepSeek V4/DeepSeek-V4-Pro-Max 在 BrowseComp、Terminal-Bench 2.0 和價格上顯示出很強的性價比;Claude Opus 4.7 仍屬前排模型;Kimi K2.6 的可用基準數據最少,因此無法做同等完整排名。證據來源有限且多為摘要片段,以下比較應視為「基於現有證據的部分比較」,不是完整評測。

Key findings

  • 綜合智能排名方面,GPT-5.5 領先。 Artificial Analysis 摘要列出的 Intelligence Index 前五名中,GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分,Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57 分,與 Gemini 3.1 Pro Preview、GPT-5.4 xhigh 同分段出現;該摘要沒有給出 DeepSeek V4 或 Kimi K2.6 的具體 Intelligence Index 分數。[4]

  • BrowseComp 上,GPT-5.5 略高於 DeepSeek-V4-Pro-Max,Claude Opus 4.7 落後一些。 VentureBeat 摘要稱 DeepSeek-V4-Pro-Max 在 BrowseComp 得分 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。[5]

  • Terminal-Bench 2.0 上,DeepSeek V4 有可見分數,但其他模型細節不足。 VentureBeat 摘要稱 DeepSeek 在 Terminal-Bench 2.0 得分 67.9%,並稱其接近 Claude Opus 4.7,但摘要沒有提供 Claude Opus 4.7 的完整數字,也沒有提供 GPT-5.5 或 Kimi K2.6 的 Terminal-Bench 2.0 分數。[5]

  • 成本方面,DeepSeek V4 明顯低於 GPT-5.5;Claude Opus 4.7 的輸入價格片段可見但輸出價格不完整。 Mashable 摘要稱 DeepSeek V4 的 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48,且上下文窗口為 100 萬;同一摘要稱 GPT-5.5 為每 100 萬輸入 token $5、每 100 萬輸出 token $30,且上下文窗口為 100 萬。[3] Mashable 摘要也顯示 Claude Opus 4.7 的輸入價格為每 100 萬 token $5,但輸出價格在提供片段中被截斷。[3]

  • DeepSeek V4 的性價比主張較強,但需要完整原文驗證。 VentureBeat 標題稱 DeepSeek-V4 以 Opus 4.7/GPT-5.5 約六分之一成本達到接近最先進智能,但目前可用證據只提供部分 benchmark 與價格片段,缺少完整計算方法。[5]

  • Kimi K2.6 的基準證據不足。 可用證據中有 Claude Opus 4.7 與 Kimi K2.6 的 SourceForge 比較頁,以及 Artificial Analysis 的 DeepSeek V4 Pro 與 Kimi K2.6 比較頁標題,但片段沒有提供 Kimi K2.6 的具體分數、價格、上下文窗口或任務表現。[2][4]

基準與價格對照

維度GPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Intelligence Indexxhigh 60;high 59。[4]Adaptive Reasoning Max Effort 57。[4]可用片段未提供分數。[4]可用片段未提供分數。[4]
BrowseComp84.4%。[5]79.3%。[5]DeepSeek-V4-Pro-Max 83.4%。[5]無可用分數。
Terminal-Bench 2.0無可用分數。摘要稱 DeepSeek 接近 Claude,但未給完整 Claude 分數。[5]67.9%。[5]無可用分數。
API 價格$5 / 100 萬輸入 token;$30 / 100 萬輸出 token;100 萬上下文。[3]可見片段顯示 $5 / 100 萬輸入 token;輸出價格片段不完整。[3]$1.74 / 100 萬輸入 token;$3.48 / 100 萬輸出 token;100 萬上下文。[3]無可用價格。
證據充分度中等:有官方系統卡存在、第三方排名與價格片段。[7][4][3]中等偏低:有第三方排名與部分價格/benchmark。[4][5][3]中等:有 BrowseComp、Terminal-Bench、價格片段。[5][3]低:只有比較頁存在,缺少具體 benchmark 數字。[2][4]

Evidence notes

  • GPT-5.5 的官方性較強,但官方 benchmark 片段不足。 OpenAI 的 GPT-5.5 System Card 於 2026 年 4 月 23 日發布,但提供的片段沒有列出具體 benchmark 成績。[7]

  • 第三方 benchmark 來源比個人測試更適合做排名依據。 Artificial Analysis 提供了 Intelligence Index 排名片段,VentureBeat 提供了 BrowseComp 和 Terminal-Bench 2.0 的部分數字,因此這兩類證據比 LinkedIn 個人測試更適合作為量化比較依據。[4][5][31]

  • 個人實測只能作為補充,不宜作為排名依據。 LinkedIn 摘要描述一名用戶用 GPT-5.5 Codex 與 Claude Code on Opus 4.7 做了 4 個 one-shot head-to-head 實驗,並指出 benchmark 只能說明部分情況;但摘要沒有提供可複核的分數表或完整任務結果。[31]

  • SourceForge 對 Claude Opus 4.7 與 Kimi K2.6 的比較主要是產品/公司資訊,不是 benchmark 數據。 該片段顯示 Anthropic 與 Moonshot AI 的公司資訊,以及 Claude Opus 4.7 vs Kimi K2.6 的比較頁存在,但沒有提供模型能力分數。[2]

Limitations / uncertainty

  • Insufficient evidence. 目前證據不足以對四個模型做「全面」基準排名,因為 Kimi K2.6 缺少具體 benchmark 數字,DeepSeek V4 在 Intelligence Index 中也沒有可見分數。[2][4]

  • 不同來源可能使用不同模型配置。 Artificial Analysis 中 GPT-5.5 有 xhigh/high,Claude Opus 4.7 有 Adaptive Reasoning Max Effort;VentureBeat 則提到 DeepSeek-V4-Pro-Max,這些配置不一定代表普通 API 默認模式。[4][5]

  • 部分價格與 benchmark 資訊被截斷。 Mashable 片段提供 DeepSeek V4 與 GPT-5.5 的完整輸入/輸出價格,但 Claude Opus 4.7 的輸出價格沒有出現在可用片段中。[3]

  • BrowseComp 和 Terminal-Bench 2.0 不能代表所有任務。 BrowseComp 偏向 agentic web browsing,Terminal-Bench 2.0 偏向終端/開發環境任務;它們不能直接代表寫作、長上下文理解、多語言、數學、視覺或企業安全表現。[5]

Summary

  • 若只看可見綜合智能排名:GPT-5.5 第一,Claude Opus 4.7 屬第一梯隊;DeepSeek V4 與 Kimi K2.6 因缺少同表分數無法排序。[4]

  • 若看 BrowseComp:GPT-5.5 84.4% 最高,DeepSeek-V4-Pro-Max 83.4% 非常接近,Claude Opus 4.7 為 79.3%;Kimi K2.6 無可用分數。[5]

  • 若看性價比:DeepSeek V4 的可見 API 價格明顯低於 GPT-5.5,且其 BrowseComp 接近 GPT-5.5;但完整成本結論仍需 Claude 與 Kimi 的完整價格和更多任務分數。[3][5]

  • 最可靠的結論是:GPT-5.5 在現有證據中性能最強,DeepSeek V4 最像高性價比追趕者,Claude Opus 4.7 仍在高端模型梯隊,Kimi K2.6 目前證據不足,不能公平排名。[4][5][2]

來源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [4] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [5] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [7] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    DeepSeek-V4-Pro-Max’s best showing is on BrowseComp, the benchmark measuring agentic AI web browsing prowess (especially highly containerized information), where it scores 83.4%, narrowly behind GPT-5.5 at 84.4% andahead of Claude Opus 4.7 at 79.3%. On Term...

  • [17] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [23] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] OpenAI releases GPT-5.5 with improved coding and research capabilitiesuk.finance.yahoo.com

    Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the release of GPT-5.5, its latest AI model now available to Plus, Pro, Business, and Enterprise users through ChatGPT and Codex platforms. The model achieved 82.7% accuracy on Terminal-Ben...