studioglobal
熱門發現
報告已發布8 來源

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 Benchmark 比較

冇單一總冠軍:同場資料顯示 Claude Opus 4.7 喺 GPQA Diamond 94.2% 同 SWE Bench Pro 64.3% 領先,而 GPT 5.5/GPT 5.5 Pro 喺 Terminal Bench 2.0 82.7% 同 BrowseComp 90.1% 領先;Kimi K2.6 缺少完整同場表,應作 shortlist 而非總冠軍。[4][10][24] DeepSeek V4 Pro Max 在同場表未做第一,但 BrowseComp 83.4% 接近 GPT 5.5 84.4%;報道稱 DeepSeek 約為最新美國模型成本六分之一,適合成本敏感場景先測。[4][20] 軟件工程方面,Cl...

15K0
Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 在 AI benchmark 儀表板上比較的概念圖
Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 Benchmark:邊個場景最強?AI 生成概念圖:四個前沿模型按 benchmark、成本同場景拆解比較。
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 Benchmark:邊個場景最強?. Article summary: 冇單一總冠軍:Claude Opus 4.7 喺 GPQA Diamond 94.2% 同 SWE Bench Pro 64.3% 領先;GPT 5.5/GPT 5.5 Pro 喺 Terminal Bench 2.0 82.7% 同 BrowseComp 90.1% 領先。Kimi K2.6 缺少完整同場表,所以只能按分散數據放入 shortlist。[4][10][24]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "* 编码与代理任务并非单一结论:VentureBeat 汇总显示 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,高于 DeepSeek V4 的 67.9% 和 Claude Opus 4.7 的 69.4%。[6]. * 推理评测存在分裂:Humanity’s Last Exam 无工具设置下,Claude Opus 4.7 为" source context "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 基准测试研究报告 | Deep Research | Studio Global" Reference image 2: visual subject "A comparison chart highlights the coding benchmark performances and costs of Kimi-K2.

openai.com

四個模型放在同一張比較表,最容易變成「邊個最強」;但按現有可核對資料,更穩妥的結論是:不要排一個總榜,要按任務揀模型。最完整的同場數據覆蓋 DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro 和 Claude Opus 4.7;Kimi K2.6 的數據則分散在 context window、BrowseComp、SWE-Bench Pro、Hugging Face model card 和單一實務 coding benchmark,所以只能作輔助比較。[4][6][10][16][22][24]

快速結論:四個模型應該點揀?

場景建議先測理由
高難度推理、無工具問答Claude Opus 4.7同場表中,Claude Opus 4.7 在 GPQA Diamond 94.2% 和 Humanity’s Last Exam no-tools 46.9% 都是最高。[4]
Terminal、browser、tool-use agentGPT-5.5/GPT-5.5 ProGPT-5.5 在 Terminal-Bench 2.0 得 82.7%;GPT-5.5 Pro 在 BrowseComp 得 90.1%,均為同表最高。[4]
Software engineeringClaude Opus 4.7 先試;GPT-5.5、Kimi K2.6 跟進實測同場表中 Claude Opus 4.7 在 SWE-Bench Pro/SWE Pro 得 64.3%;LLM Stats 亦列 Claude Opus 4.7 為 0.64,高於 GPT-5.5 和 Kimi K2.6 的 0.59。[4][24]
成本敏感、大量 API 調用DeepSeek V4DeepSeek V4-Pro-Max 在同場 benchmark 未做第一,但有報道稱 DeepSeek 約為最新美國模型成本六分之一。[4][20]
Kimi 生態、替代 coding-agent 路線Kimi K2.6Kimi K2.6 在 DocsBot 的 BrowseComp 為 83.2%,在 LLM Stats 的 SWE-Bench Pro 為 0.59;但缺少完整四模型同源同場表。[10][24]
超長 context workflowClaude Opus 4.7/GPT-5.5 較有優勢Yahoo/Tech 報道列 GPT-5.5 和 Claude Opus 4.7 為 1M context window;Artificial Analysis 比較頁列 Kimi K2.6 為 256k tokens、Claude Opus 4.7 為 1000k tokens。[6][20]

最有用的同場 benchmark:Claude、GPT-5.5、DeepSeek V4-Pro-Max

以下數字來自同一比較表,適合用來比較 DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro 和 Claude Opus 4.7;GPT-5.5 Pro 只在部分項目出現。[4]

BenchmarkDeepSeek V4-Pro-MaxGPT-5.5GPT-5.5 ProClaude Opus 4.7同表最高
GPQA Diamond90.1%93.6%94.2%Claude Opus 4.7 [4]
Humanity’s Last Exam,no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 [4]
Humanity’s Last Exam,with tools48.2%52.2%57.2%54.7%GPT-5.5 Pro [4]
Terminal-Bench 2.067.9%82.7%69.4%GPT-5.5 [4]
SWE-Bench Pro/SWE Pro55.4%58.6%64.3%Claude Opus 4.7 [4]
BrowseComp83.4%84.4%90.1%79.3%GPT-5.5 Pro [4]
MCP Atlas/MCPAtlas Public73.6%75.3%79.1%Claude Opus 4.7 [4]

這張表的讀法很清楚:Claude Opus 4.7 領先高難度推理、無工具解題、software engineering 和 MCP Atlas;GPT-5.5 系列則在 terminal、browser 和工具使用類任務更突出。[4] DeepSeek V4-Pro-Max 在這組同場數據未做任何一項第一,但 BrowseComp 83.4% 接近 GPT-5.5 的 84.4%,亦高過 Claude Opus 4.7 的 79.3%。[4]

Kimi K2.6:有亮點,但不能硬放入同一總榜

Kimi K2.6 的問題不是完全沒有數據,而是數據來源、模式和對照組不一致。以下數字可以幫你判斷它值不值得測,但不應直接當成與上表完全同場的排名。[6][10][16][22][24]

指標Kimi K2.6 可見資料對照資料可用解讀
Context window256k tokensClaude Opus 4.7 在同一比較頁列為 1000k tokensClaude 的可用上下文長度明顯較大。[6]
BrowseComp83.2% Thinking modeDeepSeek-V4 Pro 為 83.4% Pass@1/Think MaxKimi 與 DeepSeek-V4 Pro 在這個來源非常接近,但未同時列 GPT-5.5 或 Claude Opus 4.7。[10]
AIME 2026/APEX AgentsAIME 2026 為 96.4%;APEX Agents 為 27.9%DeepSeek-V4 Pro 在同頁顯示 not available顯示 Kimi 有數學與 agent 類指標,但缺少四模型同場對照。[10]
SWE-Bench Pro0.59Claude Opus 4.7 為 0.64、GPT-5.5 為 0.59、DeepSeek V4-Pro-Max 為 0.55在 LLM Stats 這個榜上,Kimi 與 GPT-5.5 同分,低於 Claude,高於 DeepSeek。[24]
MMLU-Pro/SimpleQA-VerifiedMMLU-Pro 87.1;SimpleQA-Verified 36.9DS-V4-Pro Max 分別為 87.5 和 57.9可輔助比較 Kimi 與 DeepSeek;但同表的 Opus/GPT 是 Opus-4.6 Max 和 GPT-5.4 xHigh,不是本文指定版本。[22]
實務 coding benchmark87 分Claude Opus 4.7 為 97、GPT-5.5 xHigh 為 96、DeepSeek V4 Flash 為 78、DeepSeek V4 Pro 為 69有實務參考價值,但這是單一 coding 測試,不應取代標準化 benchmark 或你自己的 repo eval。[16]

因此,Kimi K2.6 的合理定位是:值得進入 shortlist,尤其是你想測 Kimi 生態、替代模型路線或 coding-agent 成本時;但現有資料不足以支持它在四模型之中成為可證明的總冠軍。[10][16][24]

價格、context window 與部署成本

Benchmark 只能回答能力問題,不能單獨回答 production 選型。API 價格、output token 成本、上下文長度和模型體量,會直接影響實際使用成本。

模型可確認資料選型含義
GPT-5.5每 100 萬 input tokens $5;每 100 萬 output tokens $30;1M context window與 Claude Opus 4.7 input 價相同,但同一報道列出的 output 價較高。[20]
Claude Opus 4.7每 100 萬 input tokens $5;每 100 萬 output tokens $25;1M context window同一報道中,output token 價低過 GPT-5.5;Artificial Analysis 亦在 Kimi 對照頁列 Claude 為 1000k context。[6][20]
Kimi K2.6256k context windowcontext window 較 Claude Opus 4.7 的 1000k tokens 短;本文來源未提供足夠可核對 token pricing。[6]
DeepSeek V4報道稱 DeepSeek 約為最新美國模型成本六分之一;DataCamp 列 DeepSeek V4 Pro 為 MoE、1.6T total parameters、49B active parameters、865GB download,Flash 為 284B total parameters、13B active parameters、160GB download若只用 API,DeepSeek 的吸引力主要是成本;若考慮自部署或私有化,模型體量和硬件成本要一併計。[13][20]

這裏最重要的成本訊號是:GPT-5.5 和 Claude Opus 4.7 在報道中同樣是 $5/1M input tokens,但 GPT-5.5 的 output 價為 $30/1M,Claude Opus 4.7 為 $25/1M;DeepSeek 則以約六分之一成本的敘事切入。[20]

按任務深入選型

1. 高難度推理:Claude Opus 4.7 先試

如果任務是學術推理、無工具解題、複雜分析或高可靠度問答,Claude Opus 4.7 是現有同場 benchmark 最有力的第一選擇。它在 GPQA Diamond 得 94.2%,高於 GPT-5.5 的 93.6% 和 DeepSeek V4-Pro-Max 的 90.1%;Humanity’s Last Exam no-tools 亦以 46.9% 領先同表模型。[4]

2. Terminal、browser、tool-use agent:GPT-5.5/GPT-5.5 Pro 先試

如果任務重點是 terminal 操作、browser agent、工具鏈控制或有工具解題,GPT-5.5 系列更突出。GPT-5.5 在 Terminal-Bench 2.0 得 82.7%,高於 Claude Opus 4.7 的 69.4% 和 DeepSeek V4-Pro-Max 的 67.9%;GPT-5.5 Pro 在 BrowseComp 得 90.1%,亦是同表最高。[4]

3. Software engineering:Claude 領先,但 GPT-5.5 與 Kimi 都要實測

同場表中,Claude Opus 4.7 在 SWE-Bench Pro/SWE Pro 得 64.3%,高於 GPT-5.5 的 58.6% 和 DeepSeek V4-Pro-Max 的 55.4%。[4] LLM Stats 的 SWE-Bench Pro 排名方向相近:Claude Opus 4.7 為 0.64,GPT-5.5 和 Kimi K2.6 同為 0.59,DeepSeek V4-Pro-Max 為 0.55。[24]

不過,coding benchmark 很容易受 repo、語言、測試框架、agent 設定和提示方式影響。單一實務 coding 測試列出 Claude Opus 4.7 97、GPT-5.5 xHigh 96、Kimi K2.6 87、DeepSeek V4 Flash 78、DeepSeek V4 Pro 69;這些數字有參考價值,但不應單獨決定 production 選型。[16]

4. 成本敏感、大量調用:DeepSeek V4 值得優先測

如果瓶頸是 token 成本,而任務不一定要求每個 benchmark 都最高,DeepSeek V4 是合理候選。同場資料顯示 DeepSeek V4-Pro-Max 在多項 benchmark 接近前線模型但未做第一;同時,報道稱 DeepSeek 約為最新美國模型成本六分之一。[4][20]

要注意的是,DeepSeek V4 Pro 的模型規格相當大:DataCamp 列 Pro 版為 1.6T total parameters、49B active parameters、865GB download。[13] 如果不是只用第三方 API,而是要評估部署或私有化,硬件、下載、推理成本和維運能力都要一併納入。

5. Kimi K2.6:放入 shortlist,用自己的任務重跑 eval

Kimi K2.6 有幾個值得留意的訊號:DocsBot 列 Kimi K2.6 的 BrowseComp 為 83.2%,幾乎貼近同頁 DeepSeek-V4 Pro 的 83.4%;LLM Stats 列 Kimi K2.6 在 SWE-Bench Pro 為 0.59,與 GPT-5.5 同分;實務 coding benchmark 亦列出 Kimi K2.6 為 87 分。[10][16][24]

但由於缺少與 Claude Opus 4.7、GPT-5.5、DeepSeek V4-Pro-Max 完整同源、同設定、同場覆蓋的 benchmark,Kimi K2.6 目前最好視為高潛力候選,而不是可直接宣布的四模型總冠軍。[10][24]

研究限制:點解唔應過度解讀排名

  1. Kimi K2.6 缺少完整同場表。 最完整的同場資料覆蓋 DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro 和 Claude Opus 4.7,但不包括 Kimi K2.6;Kimi 需要靠 DocsBot、Artificial Analysis、LLM Stats、Hugging Face model card 和單一 coding benchmark 補充。[4][6][10][16][22][24]
  2. 版本與模式名稱不一致。 來源中同時出現 GPT-5.5 Pro、GPT-5.5 xHigh、DeepSeek-V4 Pro、DeepSeek V4-Pro-Max、Kimi Thinking、Claude Opus 4.7 Adaptive Reasoning/Max Effort 等標記,不應簡單視為完全同設定。[4][6][10][16][22]
  3. 不同平台分數格式未必可直接相加。 例如同場表用百分比列 SWE-Bench Pro/SWE Pro,而 LLM Stats 用 0.xx 格式列 SWE-Bench Pro;更穩妥做法是先比較同一來源內的相對排名,再用自己的任務重跑 eval。[4][24]
  4. 價格資料不平均。 GPT-5.5 和 Claude Opus 4.7 有清楚的 input/output token 報道價;DeepSeek 主要有約六分之一成本說法;Kimi K2.6 在本文可見來源中未有足夠完整 token pricing 可核對。[6][20]

最後判斷

如果只要一句話:Claude Opus 4.7 贏高難度推理和 software engineering benchmark;GPT-5.5/GPT-5.5 Pro 贏多個 tool-use、terminal、browser 類 benchmark;DeepSeek V4-Pro-Max 是成本與能力折衷;Kimi K2.6 有潛力,但仍需要更多完整同場證據。[4][10][20][24]

真正落地時,不要只看總分。用你自己的 repo、bug ticket、research workflow、工具權限、上下文長度、latency、錯誤容忍度和 token 成本,對四個模型跑同一批 eval;到那一步,benchmark 才會變成真正的產品選型答案。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • 冇單一總冠軍:同場資料顯示 Claude Opus 4.7 喺 GPQA Diamond 94.2% 同 SWE Bench Pro 64.3% 領先,而 GPT 5.5/GPT 5.5 Pro 喺 Terminal Bench 2.0 82.7% 同 BrowseComp 90.1% 領先;Kimi K2.6 缺少完整同場表,應作 shortlist 而非總冠軍。[4][10][24]
  • DeepSeek V4 Pro Max 在同場表未做第一,但 BrowseComp 83.4% 接近 GPT 5.5 84.4%;報道稱 DeepSeek 約為最新美國模型成本六分之一,適合成本敏感場景先測。[4][20]
  • 軟件工程方面,Claude Opus 4.7 在 SWE Bench Pro/SWE Pro 64.3% 及 LLM Stats 的 0.64 都領先;Kimi K2.6 在 LLM Stats 為 0.59,與 GPT 5.5 同分。[4][24]

人們還問

「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 Benchmark 比較」的簡短答案是什麼?

冇單一總冠軍:同場資料顯示 Claude Opus 4.7 喺 GPQA Diamond 94.2% 同 SWE Bench Pro 64.3% 領先,而 GPT 5.5/GPT 5.5 Pro 喺 Terminal Bench 2.0 82.7% 同 BrowseComp 90.1% 領先;Kimi K2.6 缺少完整同場表,應作 shortlist 而非總冠軍。[4][10][24]

首先要驗證的關鍵點是什麼?

冇單一總冠軍:同場資料顯示 Claude Opus 4.7 喺 GPQA Diamond 94.2% 同 SWE Bench Pro 64.3% 領先,而 GPT 5.5/GPT 5.5 Pro 喺 Terminal Bench 2.0 82.7% 同 BrowseComp 90.1% 領先;Kimi K2.6 缺少完整同場表,應作 shortlist 而非總冠軍。[4][10][24] DeepSeek V4 Pro Max 在同場表未做第一,但 BrowseComp 83.4% 接近 GPT 5.5 84.4%;報道稱 DeepSeek 約為最新美國模型成本六分之一,適合成本敏感場景先測。[4][20]

接下來在實務上我該做什麼?

軟件工程方面,Claude Opus 4.7 在 SWE Bench Pro/SWE Pro 64.3% 及 LLM Stats 的 0.64 都領先;Kimi K2.6 在 LLM Stats 為 0.59,與 GPT 5.5 同分。[4][24]

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 嘅基準測試,並盡可能全面咁作出比較。

Studio Global AI25 來源

引用的答案

用你提供嘅證據,未能嚴格完成 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6「同版本、同設定、同基準」嘅全面 benchmark 對比。現有資料對 DeepSeek V4 同 Kimi K2.6 有少量量化分數,但 Claude Opus 4.7 同 GPT-5.5 主要只有定價、上下文長度或定性描述;所以整體結論係:Insufficient evidence.

Key findings

  • Claude Opus 4.7 被描述為 Anthropic 最新 Opus 系列模型,重點係提升進階軟件工程、複雜問題解決、困難 coding challenge 同長流程工作表現,但提供證據入面冇可核實 benchmark 分數。[1]

  • GPT-5.5 喺現有證據入面主要有價格同上下文資料:每 100 萬 input tokens $5、每 100 萬 output tokens $30、1 million context window;但冇提供可用嚟同 DeepSeek V4、Kimi K2.6、Claude Opus 4.7 直接比較嘅 benchmark 分數。[4]

  • Claude Opus 4.7 嘅價格資料為每 100 萬 input tokens $5、每 100 萬 output tokens $25、1 million context window;但證據入面冇同場 benchmark 數字。[4]

  • DeepSeek V4-Pro 有最具體嘅模型規格資料:Pro 版係 MoE 架構,總參數 1.6 trillion、active parameters 49 billion、下載大小 865GB;Flash 版總參數 284 billion、active parameters 13 billion、下載大小 160GB。[7]

  • DeepSeek Hugging Face model card 提供咗部分 knowledge / reasoning benchmark:喺 MMLU-Pro,DS-V4-Pro Max 得 87.5,K2.6 Thinking 得 87.1;但同一表格比較嘅係 Opus-4.6 Max 同 GPT-5.4 xHigh,唔係 Claude Opus 4.7 同 GPT-5.5。[8]

  • 喺 SimpleQA-Verified,DS-V4-Pro Max 得 57.9,K2.6 Thinking 得 36.9;同一表格入面 Opus-4.6 Max 係 46.2、GPT-5.4 xHigh 係 45.3、Gemini-3.1-Pro High 係 75.6,但呢啲唔等於 Claude Opus 4.7 / GPT-5.5 嘅成績。[8]

  • 一個次級報道聲稱 DeepSeek V4-Pro 喺 Codeforces 得分 3,206,約等於人類參賽者第 23 名左右;同一來源亦聲稱 DeepSeek V4-Pro 喺 Apex Shortlist 達 90.2%,高過 Opus 4.6 嘅 85.9%。[2]

  • Artificial Analysis 有一個 DeepSeek V4 Pro Reasoning Max Effort vs GPT-5.5 low 嘅比較頁,並列出 Intelligence Index v4.0 包含 GDPval-AA、Terminal-Bench Hard、SciCode、Humanity’s Last Exam、GPQA Diamond 等項目;但你提供嘅證據片段冇實際分數,所以不能用嚟判斷 GPT-5.5 贏定 DeepSeek V4-Pro 贏。[5]

Benchmark comparison from available evidence

項目Claude Opus 4.7GPT-5.5DeepSeek V4 / V4-ProKimi K2.6
MMLU-Pro無 Opus 4.7 分數;只見 Opus 4.6 Max 89.1無 GPT-5.5 分數;只見 GPT-5.4 xHigh 87.5DS-V4-Pro Max 87.5K2.6 Thinking 87.1
SimpleQA-Verified無 Opus 4.7 分數;只見 Opus 4.6 Max 46.2無 GPT-5.5 分數;只見 GPT-5.4 xHigh 45.3DS-V4-Pro Max 57.9K2.6 Thinking 36.9
Codeforces無資料無資料V4-Pro 3,206;約人類參賽者第 23 名無資料
Apex Shortlist無 Opus 4.7 分數;只見 Opus 4.6 85.9片段不足,不能確認V4-Pro 90.2%無資料
價格$5 / 1M input,$25 / 1M output$5 / 1M input,$30 / 1M output證據不足證據不足
Context window1 million1 million證據不足證據不足

以上表格中,MMLU-Pro 同 SimpleQA-Verified 只可以嚴格比較 DeepSeek V4-Pro Max 同 Kimi K2.6 Thinking;Opus 同 GPT 欄位因為係 Opus 4.6 / GPT-5.4,而唔係用戶指定嘅 Opus 4.7 / GPT-5.5,所以只可作參考,不可當成正式同版本比較。[8]

Model-by-model assessment

Claude Opus 4.7

  • 現有證據將 Claude Opus 4.7 描述為面向高階 software engineering、complex problem-solving、difficult coding challenges 同 long-running workflows 嘅升級模型。[1]

  • 但提供資料冇 SWE-bench、Aider、Terminal-Bench、GPQA、MMLU-Pro、Humanity’s Last Exam 或其他可核實數字,所以無法判定佢相對 GPT-5.5、DeepSeek V4 或 Kimi K2.6 嘅實際 benchmark 排名。[1]

  • 價格方面,Claude Opus 4.7 係 $5 / 1M input tokens、$25 / 1M output tokens,並列出 1 million context window。[4]

GPT-5.5

  • 現有證據顯示 GPT-5.5 價格係 $5 / 1M input tokens、$30 / 1M output tokens,並列出 1 million context window。[4]

  • 另一個來源描述 GPT-5.5 係 natively omnimodal model,並具備 computer use capabilities;但呢個來源冇提供可直接比較嘅 benchmark 分數。[6]

  • Artificial Analysis 比較頁涵蓋 DeepSeek V4 Pro vs GPT-5.5 low,並列出多個 benchmark 組件,但提供證據片段冇實際成績,所以不能得出 GPT-5.5 喺該比較中嘅勝負。[5]

DeepSeek V4 / V4-Pro

  • DeepSeek V4-Pro 係現有證據入面量化資料最多嘅模型:Pro 版採用 MoE,總參數 1.6T、active 49B、下載大小 865GB;Flash 版總參數 284B、active 13B、下載大小 160GB。[7]

  • 喺 Hugging Face model card 表格,DS-V4-Pro Max 喺 MMLU-Pro 得 87.5,略高於 K2.6 Thinking 嘅 87.1,但低於 Opus-4.6 Max 嘅 89.1 同 Gemini-3.1-Pro High 嘅 91.0。[8]

  • 喺 SimpleQA-Verified,DS-V4-Pro Max 得 57.9,高過 K2.6 Thinking 36.9、Opus-4.6 Max 46.2 同 GPT-5.4 xHigh 45.3,但低過 Gemini-3.1-Pro High 75.6。[8]

  • 一個次級報道聲稱 V4-Pro 喺 Codeforces 得 3,206,約等於人類參賽者第 23 名左右;呢個係有用但需要獨立驗證嘅 competitive programming 指標。[2]

  • 同一報道稱 V4-Pro 喺 Apex Shortlist 得 90.2%,高過 Opus 4.6 嘅 85.9%;但該證據唔係官方 benchmark 報告,而且片段未完整列出 GPT 或 Kimi 對應值。[2]

Kimi K2.6

  • Kimi K2.6 喺現有證據入面主要出現喺 DeepSeek Hugging Face benchmark 表格,版本標示為 K2.6 Thinking。[8]

  • 喺 MMLU-Pro,K2.6 Thinking 得 87.1,略低於 DS-V4-Pro Max 87.5。[8]

  • 喺 SimpleQA-Verified,K2.6 Thinking 得 36.9,低於 DS-V4-Pro Max 57.9、Opus-4.6 Max 46.2 同 GPT-5.4 xHigh 45.3。[8]

  • 現有證據冇提供 Kimi K2.6 嘅價格、context window、coding benchmark、agent benchmark 或數學 benchmark,因此不能全面評估佢相對另外三個模型嘅整體能力。

Evidence notes

  • 最有量化價值嘅證據係 DeepSeek Hugging Face model card,因為佢提供咗 MMLU-Pro 同 SimpleQA-Verified 分數;但佢比較嘅係 DS-V4-Pro Max、K2.6 Thinking、Opus-4.6 Max、GPT-5.4 xHigh 等,唔係完整覆蓋 Claude Opus 4.7 同 GPT-5.5。[8]

  • Artificial Analysis 來源有潛在價值,因為佢列出一組較全面嘅 Intelligence Index v4.0 benchmarks;但現有片段只見 benchmark 名稱,冇分數,所以不能用嚟作量化結論。[5]

  • SourceForge 對 Claude Opus 4.7 只提供產品描述式資訊,說明其針對 software engineering、complex problem-solving、long-running workflows 有提升,但缺少 benchmark 數字。[1]

  • Yahoo / Mashable 片段提供 GPT-5.5 同 Claude Opus 4.7 價格及 context window,但唔提供 benchmark 結果。[4]

  • Cryptonews 來源提供 DeepSeek V4-Pro 嘅 Codeforces 同 Apex Shortlist 數字,但屬次級報道,可靠性弱過官方 model card 或獨立 benchmark 平台。[2]

Limitations / uncertainty

  • Insufficient evidence:現有資料不足以對 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 做嚴格、全面、同版本、同設定嘅 benchmark 排名。

  • 最大問題係版本唔一致:可見量化表格比較咗 Opus-4.6 Max 同 GPT-5.4 xHigh,而用戶問題要求嘅係 Claude Opus 4.7 同 GPT-5.5。[8]

  • 第二個問題係 benchmark 覆蓋唔平均:DeepSeek V4-Pro 同 Kimi K2.6 有少量 knowledge / QA 分數,但 Claude Opus 4.7 同 GPT-5.5 缺少同場分數。[8]

  • 第三個問題係來源可靠性參差:Hugging Face model card 有分數但可能屬模型發布方資料;Artificial Analysis 片段有方法但冇分數;新聞 / blog 類來源提供部分資訊但需要更高權威來源驗證。[2][5][8]

Summary

  • 如果只睇現有量化證據,DeepSeek V4-Pro Max 喺 SimpleQA-Verified 明顯高過 Kimi K2.6 Thinking,喺 MMLU-Pro 亦略高過 Kimi K2.6 Thinking。[8]

  • 但 DeepSeek V4-Pro Max 對 Claude Opus 4.7 同 GPT-5.5 嘅直接勝負無法判定,因為可見表格只列 Opus-4.6 Max 同 GPT-5.4 xHigh,而唔係指定版本。[8]

  • Claude Opus 4.7 目前只可確認其定位係強化 software engineering、complex problem-solving 同 long-running workflows;GPT-5.5 目前只可確認價格、1 million context window,以及一個來源聲稱佢係 natively omnimodal model with computer use capabilities。[1][4][6]

  • 最穩妥結論係:DeepSeek V4-Pro 喺你提供嘅證據中有最多可比較數據;Kimi K2.6 有少量可比較數據;Claude Opus 4.7 同 GPT-5.5 缺少足夠 benchmark 數字,所以不能公平排名。

來源

  • [4] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [6] Kimi K2.6 vs Claude Opus 4.7 (Adaptive Reasoning, Max Effort): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric Kimi logoKimi K2.6 Anthropic logoClaude Opus 4.7 (Adaptive Reasoning, Max Effort) Analysis --- --- Creator Kimi Anthropic Context Window 256k tokens ( 384 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 pages of siz...

  • [10] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [13] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com

    Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...

  • [20] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminitech.yahoo.com

    DeepSeek V4 is here: How it compares to ChatGPT, Claude, Gemini GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context window) Claude Opus 4.7costs at $5 per 1 million input tokens and $25 per 1 million output...

  • [22] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [24] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com

    SWE-Bench ProView → 11 of 11 Image 35: LLM Stats Logo SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving. More 1Image...