報告已發布2026年4月28日Last edited 2026年5月6日6 來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：先睇證據，再睇排名

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21] Kimi K2.6 可以入開放模型 shortlist：Hugging Face 描述它是 open source、native multimodal agentic model；第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%，但證據等級低過同表官方對照。[32][34] DeepSeek V4...

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

四個 AI 模型基準測試比較的抽象儀表板插圖 — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級AI 生成示意圖；本文聚焦可核驗 benchmark 分數與來源等級。
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍：同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先，但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先；Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu
openai.com

如果你係為產品、工程團隊或者 coding agent 揀模型，第一個問題唔應該係「邊個最勁」，而係：邊啲 benchmark 真係同一把尺？

今次比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4，證據其實唔平均。GPT-5.5 同 Claude Opus 4.7 最乾淨，因為 OpenAI 公布 GPT-5.5 時，同一張表列出兩者在 SWE-Bench Pro 同 Terminal-Bench 2.0 嘅分數。^[21] Kimi K2.6 就有 Hugging Face 模型頁描述，以及第三方文章列出 SWE-Bench 數字；DeepSeek V4 則喺本文可用來源入面未見足夠可核驗 benchmark，所以唔硬塞入數值排名。^[32]^[34]

基準測試比較表

「—」代表本文可用來源未有可引用數字，唔代表模型做唔到相關任務。唔同來源、唔同測試 harness、唔同設定下嘅分數，唔應該直接加埋變成一個總分榜。

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見資料	證據等級與解讀
GPT-5.5	58.6% ^[21]	—	82.7% ^[21]	Expert-SWE（Internal）73.1%；OpenAI 註記其他實驗室在此 eval 上見到 memorization evidence。^[21]	A-：SWE-Bench Pro 同 Terminal-Bench 2.0 來自 OpenAI 同一張比較表，可同 Claude Opus 4.7 直接對照；Expert-SWE 屬 internal eval，要保守睇。^[21]
Claude Opus 4.7	64.3% ^[21]	87.6% ^[4]^[6]	69.4% ^[21]	CursorBench 70%。^[4]^[6]	A-/B：SWE-Bench Pro 同 Terminal-Bench 2.0 可同 GPT-5.5 同表比較；SWE-Bench Verified 同 CursorBench 主要來自第三方整理，Verdent 將前者標示為 Anthropic-conducted、後者標示為 partner eval。^[6]^[21]
Kimi K2.6	58.6% ^[34]	80.2% ^[34]	—	Hugging Face 頁面將 Kimi K2.6 描述為 open-source、native multimodal agentic model。^[32]	B（有限）：SWE-Bench 分數來自第三方文章；本文來源未見到可同 GPT-5.5、Claude Opus 4.7 同表交叉驗證嘅官方完整 benchmark。^[32]^[34]
DeepSeek V4	—	—	—	—	C（資料不足）：本文可用來源未有可引用 DeepSeek V4 benchmark，因此唔做數值排名。

最值得睇邊幾個 benchmark？

SWE-Bench Pro：Claude Opus 4.7 領先 GPT-5.5

喺 OpenAI 嘅 GPT-5.5 評測表，Claude Opus 4.7 在 SWE-Bench Pro 係 64.3%，高過 GPT-5.5 嘅 58.6%。^[21] 呢組係今次最值得直接比較嘅數據之一，因為兩個模型出自同一張 OpenAI 表。

Kimi K2.6 亦被 Kilo AI 第三方文章列為 SWE-Bench Pro 58.6%，表面上接近 GPT-5.5；不過呢個數字未同 GPT-5.5、Claude Opus 4.7 出現喺同一張可引用交叉表，所以只適合作參考訊號，唔宜當成嚴格勝負。^[34]

Terminal-Bench 2.0：GPT-5.5 領先 Claude Opus 4.7

同一張 OpenAI 評測表顯示，GPT-5.5 在 Terminal-Bench 2.0 係 82.7%，Claude Opus 4.7 係 69.4%。^[21] 如果你嘅場景偏向終端機操作、命令列工作流，或者 coding agent 真正落手執行任務，GPT-5.5 應該優先入測試名單。

但要留意，本文來源未有 Kimi K2.6 或 DeepSeek V4 在 Terminal-Bench 2.0 嘅可引用分數，所以呢一欄唔能夠排四模型完整名次。

SWE-Bench Verified：Claude 數字高過 Kimi，但口徑唔同

Claude Opus 4.7 的 SWE-Bench Verified 87.6% 見於第三方 Claude Opus 4.7 評測整理；Verdent 將呢個數字標示為 Anthropic-conducted，並提到有 memorization screens applied。^[4]^[6] Kimi K2.6 的 SWE-Bench Verified 80.2% 則來自 Kilo AI 第三方文章。^[34]

兩組數字都有參考價值，但唔似 OpenAI 同表入面嘅 SWE-Bench Pro 同 Terminal-Bench 2.0 咁適合直接硬比。^[21]

Expert-SWE：只可當內部訊號，唔適合做總排名

GPT-5.5 在 Expert-SWE（Internal）為 73.1%，但 OpenAI 自己將其標示為 internal eval，並註記其他實驗室在此 eval 上見到 memorization evidence。^[21] 所以 Expert-SWE 可以話係 OpenAI 內部能力訊號，但唔適合作為四模型總排名嘅核心依據。

實際揀模型：按任務揀，唔好只望總分

如果你處理嘅係 GitHub issue 修復、multi-file bug 或複雜軟件工程任務，Claude Opus 4.7 值得先試。 喺最可直接對照嘅 SWE-Bench Pro 數據中，Claude Opus 4.7 以 64.3% 高過 GPT-5.5 嘅 58.6%。^[21] Vellum 亦將呢組差距放喺 real GitHub issue resolution 嘅語境下解讀。^[24]

如果你嘅工作流似終端機操作型 coding agent，GPT-5.5 值得先試。 GPT-5.5 在 Terminal-Bench 2.0 的可引用分數係 82.7%，高過 Claude Opus 4.7 的 69.4%。^[21] 呢點唔代表 GPT-5.5 在所有 coding 任務都較好，只代表它喺呢個特定 benchmark 有明確優勢。

如果你需要開放模型候選，Kimi K2.6 可以放入 shortlist。 Hugging Face 將 Kimi K2.6 描述為 open-source、native multimodal agentic model；Kilo AI 第三方文章列出它在 SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%。^[32]^[34] 但因為本文來源未見到同 GPT-5.5、Claude Opus 4.7 同表嘅官方交叉比較，最好仍然用你自己嘅任務集重測。

如果你正在評估 DeepSeek V4，最穩陣係等更多可引用 benchmark，或者自己重跑。 本文可用來源未有 DeepSeek V4 嘅可核驗分數；硬將佢排入榜，反而比留白更容易誤導。

點解本文唔頒「總冠軍」？

LLM benchmark 最易出事嘅位，就係將唔同來源、唔同測試設定、唔同任務類型嘅分數撈埋。今次可以分三層睇：

同表共享 benchmark：例如 GPT-5.5 同 Claude Opus 4.7 喺 OpenAI 表中嘅 SWE-Bench Pro、Terminal-Bench 2.0，係今次最適合直接對照嘅資料。^[21]
第三方整理嘅 vendor 或 partner eval：例如 Claude Opus 4.7 嘅 SWE-Bench Verified 同 CursorBench，仍有參考價值，但要留意來源同測試口徑。^[4]^[6]
缺少交叉驗證或可引用數字不足：例如 Kimi K2.6 目前主要靠第三方文章列出 SWE-Bench 數字；DeepSeek V4 喺本文來源入面未有足夠 benchmark 可引用。^[32]^[34]

按呢個標準，結論其實幾清楚：Claude Opus 4.7 在 SWE-Bench Pro 領先 GPT-5.5；GPT-5.5 在 Terminal-Bench 2.0 領先 Claude Opus 4.7；Kimi K2.6 的 SWE-Bench 數字有競爭力，但證據等級較低；DeepSeek V4 暫時應列為資料不足。^[21]^[32]^[34]

真正落地選型，唔應該停喺 benchmark 表。最好用呢張表先縮窄 shortlist，下一步再用你自己嘅 repo 類型、程式語言、測試環境、工具調用、延遲、成本同失敗恢復方式重測。咁得出嚟嘅結果，會比一個「四模型總排名」更貼近實際產品表現。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21]
Kimi K2.6 可以入開放模型 shortlist：Hugging Face 描述它是 open source、native multimodal agentic model；第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%，但證據等級低過同表官方對照。[32][34]
DeepSeek V4 喺本文可用來源入面未有足夠可引用 benchmark；GPT 5.5 的 Expert SWE 73.1% 亦屬 internal eval，且有 memorization evidence 提示，不宜當總排名核心。[21]

人們還問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：先睇證據，再睇排名」的簡短答案是什麼？

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

DeepSeek V4 喺本文可用來源入面未有足夠可引用 benchmark；GPT 5.5 的 Expert SWE 73.1% 亦屬 internal eval，且有 memorization evidence 提示，不宜當總排名核心。[21]

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月25日

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試，並為我以比較表形式展示。

Studio Global AI2026年4月25日40 來源

引用的答案

先給你可用結論：在本次可核實資料裡，GPT-5.5 與 Claude Opus 4.7 的 benchmark 最完整，且在 OpenAI 同一張對照表上，Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 高於 GPT-5.5 的 58.6%，但 GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 高於 Claude Opus 4.7 的 69.4%。^[14] Kimi K2.6 目前只看到第三方摘要數值，DeepSeek V4 則缺乏足夠可核實 benchmark，因此我把「分數」與「證據等級」一起標在表裡。^[4]

Key findings

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見 benchmark	證據等級 / 備註
GPT-5.5	58.6% ^[14]	—	82.7% ^[14]	Expert-SWE（Internal）73.1% ^[14]	OpenAI 官方資料；OpenAI 也註記 Expert-SWE 有 memorization 風險提示，需保守解讀。^[14]
Claude Opus 4.7	64.3% ^[14]	87.6% ^[10]	69.4% ^[14]	CursorBench 70% ^[10]	SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。^[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要，不是獨立 leaderboard。^[10]
Kimi K2.6	58.6% ^[4]	80.2% ^[4]	—	—	目前僅見第三方摘要，未在本次證據集中交叉核實到官方完整 benchmark 頁面。^[4]
DeepSeek V4	Insufficient evidence	Insufficient evidence	Insufficient evidence	—	本次檢索未取得足夠可核實 benchmark，暫不做數值比較。

如果只看目前可同口徑對照的共享 benchmark，Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5，而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。^[14]
GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval，且 OpenAI 自己提醒有 memorization caveat，因此不宜單獨把它當作總體排名依據。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強，但本次可用資料中，這個數值來自第三方摘要的 vendor/partner-eval 描述，可信度仍低於同張官方對照表裡的共享 benchmark。^[10]^[14]
Kimi K2.6 依目前可見摘要，在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%，且 SWE-Bench Verified 為 80.2%，但因缺乏同等級官方交叉驗證，我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。^[4]^[14]

Evidence notes

OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績，所以這兩欄是本次最乾淨的 apples-to-apples 子集。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench，在本次資料中來自第三方摘要，且摘要本身把它描述為 Anthropic-conducted / partner eval。^[10]
Kimi K2.6 的數值來自本次檢索到的第三方結果摘要，而不是我已核實的官方 benchmark 表。^[4]

Limitations / uncertainty

四個模型沒有在完全一致的 benchmark 集上都公布足夠數字，因此如果你要的是「四家嚴格總排名」，目前證據不足。^[14]^[10]^[4]
目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制，獨立重跑結果可能不同。^[14]^[10]
DeepSeek V4：Insufficient evidence.

Summary

目前最穩妥的比較方式，是只拿共享 benchmark 來看：Claude Opus 4.7 在 SWE-Bench Pro 領先，GPT-5.5 在 Terminal-Bench 2.0 領先。^[14] Kimi K2.6 看起來在 SWE-Bench 系列有競爭力，但證據等級較低。^[4] DeepSeek V4 目前無法公平放入同一張排名表，因為可核實資料不足。

如果你要，我下一步可以幫你做兩個延伸版本：

只保留「官方來源」的極保守比較表。
擴充到 Artificial Analysis、Vals AI 等第三方榜單，做一版「更完整但混合來源」的比較表。

來源

[4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com
Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...
[6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...
[21] Introducing GPT-5.5openai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
[32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago
[34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai
It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago

熱門發現

報告已發布2026年4月28日Last edited 2026年5月6日6 來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：先睇證據，再睇排名

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

如果你係為產品、工程團隊或者 coding agent 揀模型，第一個問題唔應該係「邊個最勁」，而係：邊啲 benchmark 真係同一把尺？

基準測試比較表

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見資料	證據等級與解讀
GPT-5.5	58.6% ^[21]	—	82.7% ^[21]	Expert-SWE（Internal）73.1%；OpenAI 註記其他實驗室在此 eval 上見到 memorization evidence。^[21]	A-：SWE-Bench Pro 同 Terminal-Bench 2.0 來自 OpenAI 同一張比較表，可同 Claude Opus 4.7 直接對照；Expert-SWE 屬 internal eval，要保守睇。^[21]
Claude Opus 4.7	64.3% ^[21]	87.6% ^[4]^[6]	69.4% ^[21]	CursorBench 70%。^[4]^[6]	A-/B：SWE-Bench Pro 同 Terminal-Bench 2.0 可同 GPT-5.5 同表比較；SWE-Bench Verified 同 CursorBench 主要來自第三方整理，Verdent 將前者標示為 Anthropic-conducted、後者標示為 partner eval。^[6]^[21]
Kimi K2.6	58.6% ^[34]	80.2% ^[34]	—	Hugging Face 頁面將 Kimi K2.6 描述為 open-source、native multimodal agentic model。^[32]	B（有限）：SWE-Bench 分數來自第三方文章；本文來源未見到可同 GPT-5.5、Claude Opus 4.7 同表交叉驗證嘅官方完整 benchmark。^[32]^[34]
DeepSeek V4	—	—	—	—	C（資料不足）：本文可用來源未有可引用 DeepSeek V4 benchmark，因此唔做數值排名。

最值得睇邊幾個 benchmark？

SWE-Bench Pro：Claude Opus 4.7 領先 GPT-5.5

Terminal-Bench 2.0：GPT-5.5 領先 Claude Opus 4.7

但要留意，本文來源未有 Kimi K2.6 或 DeepSeek V4 在 Terminal-Bench 2.0 嘅可引用分數，所以呢一欄唔能夠排四模型完整名次。

SWE-Bench Verified：Claude 數字高過 Kimi，但口徑唔同

兩組數字都有參考價值，但唔似 OpenAI 同表入面嘅 SWE-Bench Pro 同 Terminal-Bench 2.0 咁適合直接硬比。^[21]

Expert-SWE：只可當內部訊號，唔適合做總排名

實際揀模型：按任務揀，唔好只望總分

點解本文唔頒「總冠軍」？

LLM benchmark 最易出事嘅位，就係將唔同來源、唔同測試設定、唔同任務類型嘅分數撈埋。今次可以分三層睇：

同表共享 benchmark：例如 GPT-5.5 同 Claude Opus 4.7 喺 OpenAI 表中嘅 SWE-Bench Pro、Terminal-Bench 2.0，係今次最適合直接對照嘅資料。^[21]
第三方整理嘅 vendor 或 partner eval：例如 Claude Opus 4.7 嘅 SWE-Bench Verified 同 CursorBench，仍有參考價值，但要留意來源同測試口徑。^[4]^[6]
缺少交叉驗證或可引用數字不足：例如 Kimi K2.6 目前主要靠第三方文章列出 SWE-Bench 數字；DeepSeek V4 喺本文來源入面未有足夠 benchmark 可引用。^[32]^[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21]
Kimi K2.6 可以入開放模型 shortlist：Hugging Face 描述它是 open source、native multimodal agentic model；第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%，但證據等級低過同表官方對照。[32][34]
DeepSeek V4 喺本文可用來源入面未有足夠可引用 benchmark；GPT 5.5 的 Expert SWE 73.1% 亦屬 internal eval，且有 memorization evidence 提示，不宜當總排名核心。[21]

人們還問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：先睇證據，再睇排名」的簡短答案是什麼？

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

DeepSeek V4 喺本文可用來源入面未有足夠可引用 benchmark；GPT 5.5 的 Expert SWE 73.1% 亦屬 internal eval，且有 memorization evidence 提示，不宜當總排名核心。[21]

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月25日

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試，並為我以比較表形式展示。

Studio Global AI2026年4月25日40 來源

引用的答案

Key findings

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見 benchmark	證據等級 / 備註
GPT-5.5	58.6% ^[14]	—	82.7% ^[14]	Expert-SWE（Internal）73.1% ^[14]	OpenAI 官方資料；OpenAI 也註記 Expert-SWE 有 memorization 風險提示，需保守解讀。^[14]
Claude Opus 4.7	64.3% ^[14]	87.6% ^[10]	69.4% ^[14]	CursorBench 70% ^[10]	SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。^[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要，不是獨立 leaderboard。^[10]
Kimi K2.6	58.6% ^[4]	80.2% ^[4]	—	—	目前僅見第三方摘要，未在本次證據集中交叉核實到官方完整 benchmark 頁面。^[4]
DeepSeek V4	Insufficient evidence	Insufficient evidence	Insufficient evidence	—	本次檢索未取得足夠可核實 benchmark，暫不做數值比較。

如果只看目前可同口徑對照的共享 benchmark，Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5，而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。^[14]
GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval，且 OpenAI 自己提醒有 memorization caveat，因此不宜單獨把它當作總體排名依據。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強，但本次可用資料中，這個數值來自第三方摘要的 vendor/partner-eval 描述，可信度仍低於同張官方對照表裡的共享 benchmark。^[10]^[14]
Kimi K2.6 依目前可見摘要，在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%，且 SWE-Bench Verified 為 80.2%，但因缺乏同等級官方交叉驗證，我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。^[4]^[14]

Evidence notes

OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績，所以這兩欄是本次最乾淨的 apples-to-apples 子集。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench，在本次資料中來自第三方摘要，且摘要本身把它描述為 Anthropic-conducted / partner eval。^[10]
Kimi K2.6 的數值來自本次檢索到的第三方結果摘要，而不是我已核實的官方 benchmark 表。^[4]

Limitations / uncertainty

四個模型沒有在完全一致的 benchmark 集上都公布足夠數字，因此如果你要的是「四家嚴格總排名」，目前證據不足。^[14]^[10]^[4]
目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制，獨立重跑結果可能不同。^[14]^[10]
DeepSeek V4：Insufficient evidence.

Summary

如果你要，我下一步可以幫你做兩個延伸版本：

只保留「官方來源」的極保守比較表。
擴充到 Artificial Analysis、Vals AI 等第三方榜單，做一版「更完整但混合來源」的比較表。

來源

[4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com
Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...
[6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...
[21] Introducing GPT-5.5openai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
[32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago
[34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai
It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago

熱門發現

報告已發布2026年4月28日Last edited 2026年5月6日6 來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：先睇證據，再睇排名

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

如果你係為產品、工程團隊或者 coding agent 揀模型，第一個問題唔應該係「邊個最勁」，而係：邊啲 benchmark 真係同一把尺？

基準測試比較表

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見資料	證據等級與解讀
GPT-5.5	58.6% ^[21]	—	82.7% ^[21]	Expert-SWE（Internal）73.1%；OpenAI 註記其他實驗室在此 eval 上見到 memorization evidence。^[21]	A-：SWE-Bench Pro 同 Terminal-Bench 2.0 來自 OpenAI 同一張比較表，可同 Claude Opus 4.7 直接對照；Expert-SWE 屬 internal eval，要保守睇。^[21]
Claude Opus 4.7	64.3% ^[21]	87.6% ^[4]^[6]	69.4% ^[21]	CursorBench 70%。^[4]^[6]	A-/B：SWE-Bench Pro 同 Terminal-Bench 2.0 可同 GPT-5.5 同表比較；SWE-Bench Verified 同 CursorBench 主要來自第三方整理，Verdent 將前者標示為 Anthropic-conducted、後者標示為 partner eval。^[6]^[21]
Kimi K2.6	58.6% ^[34]	80.2% ^[34]	—	Hugging Face 頁面將 Kimi K2.6 描述為 open-source、native multimodal agentic model。^[32]	B（有限）：SWE-Bench 分數來自第三方文章；本文來源未見到可同 GPT-5.5、Claude Opus 4.7 同表交叉驗證嘅官方完整 benchmark。^[32]^[34]
DeepSeek V4	—	—	—	—	C（資料不足）：本文可用來源未有可引用 DeepSeek V4 benchmark，因此唔做數值排名。

最值得睇邊幾個 benchmark？

SWE-Bench Pro：Claude Opus 4.7 領先 GPT-5.5

Terminal-Bench 2.0：GPT-5.5 領先 Claude Opus 4.7

但要留意，本文來源未有 Kimi K2.6 或 DeepSeek V4 在 Terminal-Bench 2.0 嘅可引用分數，所以呢一欄唔能夠排四模型完整名次。

SWE-Bench Verified：Claude 數字高過 Kimi，但口徑唔同

兩組數字都有參考價值，但唔似 OpenAI 同表入面嘅 SWE-Bench Pro 同 Terminal-Bench 2.0 咁適合直接硬比。^[21]

Expert-SWE：只可當內部訊號，唔適合做總排名

實際揀模型：按任務揀，唔好只望總分

點解本文唔頒「總冠軍」？

LLM benchmark 最易出事嘅位，就係將唔同來源、唔同測試設定、唔同任務類型嘅分數撈埋。今次可以分三層睇：

同表共享 benchmark：例如 GPT-5.5 同 Claude Opus 4.7 喺 OpenAI 表中嘅 SWE-Bench Pro、Terminal-Bench 2.0，係今次最適合直接對照嘅資料。^[21]
第三方整理嘅 vendor 或 partner eval：例如 Claude Opus 4.7 嘅 SWE-Bench Verified 同 CursorBench，仍有參考價值，但要留意來源同測試口徑。^[4]^[6]
缺少交叉驗證或可引用數字不足：例如 Kimi K2.6 目前主要靠第三方文章列出 SWE-Bench 數字；DeepSeek V4 喺本文來源入面未有足夠 benchmark 可引用。^[32]^[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21]
Kimi K2.6 可以入開放模型 shortlist：Hugging Face 描述它是 open source、native multimodal agentic model；第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%，但證據等級低過同表官方對照。[32][34]
DeepSeek V4 喺本文可用來源入面未有足夠可引用 benchmark；GPT 5.5 的 Expert SWE 73.1% 亦屬 internal eval，且有 memorization evidence 提示，不宜當總排名核心。[21]

人們還問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：先睇證據，再睇排名」的簡短答案是什麼？

唔應該硬排四模型總冠軍：OpenAI 同表數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高過 GPT 5.5 58.6%，但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高過 Claude 69.4%。[21]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

DeepSeek V4 喺本文可用來源入面未有足夠可引用 benchmark；GPT 5.5 的 Expert SWE 73.1% 亦屬 internal eval，且有 memorization evidence 提示，不宜當總排名核心。[21]

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

你2026年4月25日

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試，並為我以比較表形式展示。

Studio Global AI2026年4月25日40 來源

引用的答案

Key findings

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見 benchmark	證據等級 / 備註
GPT-5.5	58.6% ^[14]	—	82.7% ^[14]	Expert-SWE（Internal）73.1% ^[14]	OpenAI 官方資料；OpenAI 也註記 Expert-SWE 有 memorization 風險提示，需保守解讀。^[14]
Claude Opus 4.7	64.3% ^[14]	87.6% ^[10]	69.4% ^[14]	CursorBench 70% ^[10]	SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。^[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要，不是獨立 leaderboard。^[10]
Kimi K2.6	58.6% ^[4]	80.2% ^[4]	—	—	目前僅見第三方摘要，未在本次證據集中交叉核實到官方完整 benchmark 頁面。^[4]
DeepSeek V4	Insufficient evidence	Insufficient evidence	Insufficient evidence	—	本次檢索未取得足夠可核實 benchmark，暫不做數值比較。

如果只看目前可同口徑對照的共享 benchmark，Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5，而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。^[14]
GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval，且 OpenAI 自己提醒有 memorization caveat，因此不宜單獨把它當作總體排名依據。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強，但本次可用資料中，這個數值來自第三方摘要的 vendor/partner-eval 描述，可信度仍低於同張官方對照表裡的共享 benchmark。^[10]^[14]
Kimi K2.6 依目前可見摘要，在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%，且 SWE-Bench Verified 為 80.2%，但因缺乏同等級官方交叉驗證，我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。^[4]^[14]

Evidence notes

OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績，所以這兩欄是本次最乾淨的 apples-to-apples 子集。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench，在本次資料中來自第三方摘要，且摘要本身把它描述為 Anthropic-conducted / partner eval。^[10]
Kimi K2.6 的數值來自本次檢索到的第三方結果摘要，而不是我已核實的官方 benchmark 表。^[4]

Limitations / uncertainty

四個模型沒有在完全一致的 benchmark 集上都公布足夠數字，因此如果你要的是「四家嚴格總排名」，目前證據不足。^[14]^[10]^[4]
目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制，獨立重跑結果可能不同。^[14]^[10]
DeepSeek V4：Insufficient evidence.

Summary

如果你要，我下一步可以幫你做兩個延伸版本：

只保留「官方來源」的極保守比較表。
擴充到 Artificial Analysis、Vals AI 等第三方榜單，做一版「更完整但混合來源」的比較表。

來源

[4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com
Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...
[6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...
[21] Introducing GPT-5.5openai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
[32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago
[34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai
It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago