報告已發布2026年4月28日Last edited 2026年5月6日9 來源

GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：唔好只睇總排名

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。 GPT 5.5 喺 OpenAI 表內 ARC AGI 1/2 分別為 95.0%/85.0%，高過 Claude Opus 4.7 嘅 93.5%/75.8%；但 Claude 喺 MCP Atlas 以 79.1% 對 75.3% 領先 [6] [14]。

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

Illustration comparant les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 — GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarksComparaison prudente des scores disponibles : ARC-AGI, MCP-Atlas, coding agentique et signaux open-weights.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarks. Article summary: Il n’y a pas de classement global fiable des quatre modèles dans les sources disponibles : GPT 5.5 mène face à Claude Opus 4.7 sur ARC AGI avec 95,0 % et 85,0 % contre 93,5 % et 75,8 %, Claude mène sur MCP Atlas avec.... Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.you
openai.com

如果你係想揀模型做產品、內部工具或者 coding agent，最容易問錯嘅問題係：邊個第一？目前資料唔支持一張乾淨嘅四模型總排名。比較扎實嘅數字，主要係 GPT-5.5 同 Claude Opus 4.7 喺幾個指定 benchmark 上；DeepSeek V4 同 Kimi K2.6 則多數出現在 open-weights 訊號，未能同 ARC-AGI、MCP-Atlas、Terminal-Bench 2.0 逐格對齊 ^[6] ^[8] ^[14] ^[15] ^[20] ^[21]。

比較穩陣嘅讀法係按用途睇：抽象推理方面，GPT-5.5 喺已列出嘅 ARC-AGI 分數領先 Claude Opus 4.7；工具調度方面，Claude Opus 4.7 喺 MCP-Atlas 領先；coding agentic 方面，GPT-5.5 有最清楚嘅公開數字；至於 DeepSeek V4 同 Kimi K2.6，現有來源未足以喺同一批測試入面分出高下 ^[6] ^[14] ^[15] ^[20] ^[21]。

先睇真正可比嘅分數

範疇 / benchmark	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	小心解讀
ARC-AGI-1 Verified	95.0% ^[6]	93.5% ^[6]	來源未有同場可比數字	來源未有同場可比數字	喺 OpenAI 表內，GPT-5.5 高 Claude Opus 4.7 1.5 個百分點 ^[6]。
ARC-AGI-2 Verified	85.0% ^[6]	75.8% ^[6]	來源未有同場可比數字	來源未有同場可比數字	GPT-5.5 優勢更明顯，但要記住呢組係 OpenAI 發佈頁列出嘅測試設定 ^[6]。
MCP-Atlas	75.3% ^[14]	79.1% ^[14]	來源未有同場可比數字	來源未有同場可比數字	Claude Opus 4.7 喺呢個工具調度 benchmark 領先 GPT-5.5 ^[14]。
Terminal-Bench 2.0 / coding agentic	82.7% 報告值 ^[15]	來源未有同場可比數字	來源未有同場可比數字	來源未有同場可比數字	對 GPT-5.5 係強訊號，但唔係四個模型嘅完整同場排名 ^[15]。
Open-weights / Artificial Analysis	呢度唔作同類比較	呢度唔作同類比較	DeepSeek V4 Pro (Max) 喺 Artificial Analysis Intelligence Index 報 52，V3.2 係 42 ^[21]	Artificial Analysis 有 Kimi K2.6: The new leading open weights model 一文，但提供資料未有可用分數 ^[8]	Open-weights 訊號重要，但唔可以代替共同 benchmark ^[8] ^[20] ^[21]。
安全 / cyber	CoT-Control 包括超過 13,000 個任務；另有二手來源指 93% cyber range 通過率，亦指紅隊六小時內找到通用 jailbreak ^[1] ^[3]	來源未有同場可比數字	來源未有同場可比數字	來源未有同場可比數字	呢啲資料唔構成四模型安全排名 ^[1] ^[3] ^[19]。

表入面有空格，唔代表 DeepSeek V4 或 Kimi K2.6 弱。只係喺目前提供嘅來源入面，未見到同一套 benchmark、同一設定、同一披露程度嘅可比數字 ^[8] ^[20] ^[21]。

抽象推理：GPT-5.5 喺 ARC-AGI 贏，但唔好過度解讀

OpenAI 發佈頁列出，GPT-5.5 喺 ARC-AGI-1 Verified 取得 95.0%，Claude Opus 4.7 係 93.5%；喺 ARC-AGI-2 Verified，GPT-5.5 係 85.0%，Claude Opus 4.7 係 75.8% ^[6]。如果只睇呢兩項抽象推理分數，GPT-5.5 係領先。

但呢個結論有邊界。OpenAI 同時註明，GPT 相關評估係用 xhigh reasoning effort，而且喺研究環境執行，結果可能同正式 ChatGPT 產品環境有少少不同 ^[6]。所以，合理講法係：GPT-5.5 喺 OpenAI 列出嘅 ARC-AGI 測試中勝出；唔係話佢喺所有真實任務都必然贏。

工具代理：Claude Opus 4.7 喺 MCP-Atlas 佔優

如果你做嘅唔係單一問答，而係多工具、多步驟嘅 AI agent，MCP-Atlas 可能比純推理分更貼近你嘅痛點。二手分析報告指，Claude Opus 4.7 喺 MCP-Atlas 得 79.1%，高過 GPT-5.5 嘅 75.3%；該分析亦將呢個優勢連繫到 Model Context Protocol 場景下較複雜、鏈式工具呼叫嘅可靠性 ^[14]。

換句話講，如果你個產品重點係外部工具、MCP orchestration、連鎖 workflow，而唔只係答題，Claude Opus 4.7 喺呢項 benchmark 上嘅訊號更靚 ^[14]。

Coding agentic：GPT-5.5 有最硬數字，但未係全勝證明

GPT-5.5 被報告喺 Terminal-Bench 2.0 取得 82.7%，呢個 benchmark 關乎 terminal 任務同 coding agentic 能力 ^[15]。喺目前來源入面，呢個係最清楚、最可用嘅 coding 相關數字。

限制同樣明顯：來源未提供 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 喺 Terminal-Bench 2.0 嘅完整同場分數。因此，較準確嘅講法係 GPT-5.5 喺 coding agentic 有最明確嘅文件化強訊號，而唔係已經證明佢喺所有 coding agent 場景都打贏另外三個模型 ^[15]。

DeepSeek V4 同 Kimi K2.6：開放權重候選值得試，但唔好硬排

DeepSeek V4 同 Kimi K2.6 應該被認真看待，尤其係你重視 open-weights、部署控制，或者成本與性能取捨。不過，呢批來源未提供足夠資料，去將佢哋同 GPT-5.5、Claude Opus 4.7 喺 ARC-AGI、MCP-Atlas 或 Terminal-Bench 2.0 上做嚴格對照 ^[8] ^[20] ^[21]。

DeepSeek 方面，Artificial Analysis 指 DeepSeek V4 發佈令 DeepSeek 重新回到領先 open-weights 模型之列 ^[20]。目前最具體嘅數字係 DeepSeek V4 Pro (Max) 喺 Artificial Analysis Intelligence Index 得 52，高過 DeepSeek V3.2 嘅 42 ^[21]。

Kimi 方面，Artificial Analysis 有一篇題為 Kimi K2.6: The new leading open weights model 嘅分析 ^[8]。呢個標題係強烈定位訊號，但目前提供資料未有足夠分數，去將 Kimi K2.6 同 DeepSeek V4、GPT-5.5、Claude Opus 4.7 喺同一套 benchmark 上排位 ^[8] ^[21]。

安全同 cyberscecurity：能力高，唔等於一定安全

GPT-5.5 system card 描述 CoT-Control 為一套超過 13,000 個任務嘅評估，任務建基於 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等既有 benchmark ^[3]。呢件事有助理解 GPT-5.5 點樣評估推理可控性，但佢唔係 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 之間嘅安全排名 ^[3]。

另一個來源指 GPT-5.5 喺 cyber range 有 93% 通過率，同時亦指出紅隊測試六小時內找到通用 jailbreak ^[1]。兩件事要一齊睇：cyber 任務做得好，唔代表整體安全就可以放心蓋章 ^[1]。

外部批評亦提醒，GPT-5.5 安全評估好大程度仍依賴 OpenAI 自身披露，令外界單靠供應商資料可以下嘅結論有限 ^[19]。

如果要揀模型，應該點落決定？

抽象推理：按目前 ARC-AGI 數字，GPT-5.5 對 Claude Opus 4.7 較有根據地領先；但要記住 xhigh reasoning effort 同研究環境呢個限制 ^[6]。
多工具 agent / MCP workflow：Claude Opus 4.7 喺 MCP-Atlas 以 79.1% 對 75.3% 領先 GPT-5.5，對重度工具調度團隊值得優先測 ^[14]。
Terminal coding agent：GPT-5.5 喺 Terminal-Bench 2.0 有 82.7% 呢個最清楚數字，但缺少另外三個模型嘅同場完整分數 ^[15]。
Open-weights 部署：DeepSeek V4 同 Kimi K2.6 都值得放入 shortlist，特別係你重視開放權重或部署控制；但目前資料未足以直接判定邊個全面勝出 ^[8] ^[20] ^[21]。
高風險或安全敏感場景：能力 benchmark、cyber range、jailbreak、第三方安全審查要分開處理；唔好用一個高分代替風險評估 ^[1] ^[3] ^[19]。

最唔應該得出嘅結論

第一，唔好因為 GPT-5.5 喺 ARC-AGI 領先，就話佢係所有用途嘅宇宙第一 ^[6]。第二，亦唔好因為 Claude Opus 4.7 喺 MCP-Atlas 贏，就推論佢整體一定更強 ^[14]。每個 benchmark 測嘅能力唔同，放錯場景就會讀錯結果。

第三，唔好喺缺少共同 benchmark 之下，硬將 DeepSeek V4、Kimi K2.6 同 GPT-5.5、Claude Opus 4.7 排一張總表。Artificial Analysis 嘅訊號顯示 DeepSeek V4 同 Kimi K2.6 喺 open-weights 生態有份量，但未足以建立跨四模型嘅完整排名 ^[8] ^[20] ^[21]。

最後，唔好將能力分數當安全保證。GPT-5.5 相關資料本身已經顯示，高 cyber 表現可以同 jailbreak 風險、評估獨立性問題同時存在 ^[1] ^[19]。

總結

最老實嘅排名唔係一個冠軍，而係分場景：GPT-5.5 喺目前可見 ARC-AGI 分數中領先 Claude Opus 4.7，亦有最清楚嘅 coding agentic 數字；Claude Opus 4.7 喺 MCP-Atlas 領先；DeepSeek V4 同 Kimi K2.6 則係重要 open-weights 候選，但目前資料唔足以同兩個封閉模型做嚴格同場總排名 ^[6] ^[8] ^[14] ^[15] ^[20] ^[21]。

真正落地時，最實際唔係追一個萬能第一，而係用你自己嘅任務集測：推理、工具呼叫、代碼修改、成本、延遲、部署限制，以及你可以接受嘅安全風險。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。
GPT 5.5 喺 OpenAI 表內 ARC AGI 1/2 分別為 95.0%/85.0%，高過 Claude Opus 4.7 嘅 93.5%/75.8%；但 Claude 喺 MCP Atlas 以 79.1% 對 75.3% 領先 [6] [14]。
Coding agentic 最清楚嘅數字係 GPT 5.5 喺 Terminal Bench 2.0 有 82.7%；安全同 cyber 分數要分開睇，唔可以當成整體可靠性保證 [1] [3] [15] [19]。

人們還問

「GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：唔好只睇總排名」的簡短答案是什麼？

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

Coding agentic 最清楚嘅數字係 GPT 5.5 喺 Terminal Bench 2.0 有 82.7%；安全同 cyber 分數要分開睇，唔可以當成整體可靠性保證 [1] [3] [15] [19]。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月27日

研究問題

Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet.

Studio Global AI2026年4月27日29 來源

引用的答案

J’ai trouvé des données vérifiables pour GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT-5.5 semble en tête sur raisonnement abstrait et coding agentique dans les sources disponibles, Claude Opus 4.7 devance GPT-5.5 sur l’orchestration d’outils MCP-Atlas, et les données récupérées sont insuffisantes pour départager proprement DeepSeek V4 et Kimi K2.6.

Key findings

GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement ^[11].
OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics ^[11].
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source ^[7].
GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark ^[14].
La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles ^[2].
Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté ^[3].
Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 ^[1] ^[13].

Tableau comparatif des benchmarks récupérés

Benchmark / domaine	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Lecture prudente
ARC-AGI-1 Verified / raisonnement abstrait	95.0% ^[11]	93.5% ^[11]	Insufficient evidence	Insufficient evidence	GPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI ^[11].
ARC-AGI-2 Verified / raisonnement abstrait plus difficile	85.0% ^[11]	75.8% ^[11]	Insufficient evidence	Insufficient evidence	GPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI ^[11].
MCP-Atlas / orchestration d’outils	75.3% ^[7]	79.1% ^[7]	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis ^[7].
Terminal-Bench 2.0 / coding agentique terminal	82.7% ^[14]	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète ^[14].
Cyber range / cybersécurité offensive-défensive	93% de réussite rapporté ^[3]	Insufficient evidence	Insufficient evidence	Insufficient evidence	Le score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming ^[3].
CoT-Control / contrôlabilité du raisonnement	Suite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré ^[2]	Insufficient evidence	Insufficient evidence	Insufficient evidence	Benchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle ^[2].
Classement open-weights	Non open-weights dans les sources récupérées	Non open-weights dans les sources récupérées	Signalé comme retour parmi les modèles open-weights de tête ^[1]	Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis ^[13]	Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent ^[1] ^[13].

Analyse par modèle

GPT-5.5

GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires ^[2] ^[11] ^[13].

Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified ^[11].

Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée ^[7].

Sur Terminal-Bench 2.0, GPT-5.5 est rapporté à 82.7%, ce qui suggère une forte performance en coding agentique, mais la comparaison avec les trois autres modèles reste incomplète dans les sources récupérées ^[14].

Côté sûreté et cybersécurité, une source rapporte 93% sur cyber range, mais signale aussi qu’un jailbreak universel a été trouvé en six heures de red-teaming, donc ce résultat ne doit pas être interprété comme une sûreté globale démontrée ^[3].

Claude Opus 4.7

Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées ^[7] ^[11].

Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI ^[11].

Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI ^[11].

Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils ^[7].

Les sources récupérées ne fournissent pas de score fiable pour Claude Opus 4.7 sur Terminal-Bench 2.0, cyber range, CoT-Control ou un benchmark open-weights, donc toute conclusion au-delà des trois mesures ci-dessus serait spéculative.

DeepSeek V4

DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête ^[1].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.

Kimi K2.6

Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts ^[13].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.

Comparaison qualitative

Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré ^[11].
Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% ^[7].
Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles ^[14].
Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête ^[1] ^[13].
Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 ^[2] ^[11] ^[13].

Evidence notes

La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche ^[11].
La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro ^[2].
La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration ^[7].
Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée ^[6].

Limitations / uncertainty

Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets ^[1] ^[13].
Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.
Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche ^[11].
Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement ^[3].

Summary

GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 ^[11] ^[14].

Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes ^[7].

DeepSeek V4 et Kimi K2.6 semblent importants dans le segment open-weights, mais les sources récupérées ne donnent pas assez de scores exploitables pour les comparer rigoureusement aux deux modèles propriétaires ^[1] ^[13].

Le rapport le plus honnête est donc un classement par domaine plutôt qu’un classement global : GPT-5.5 pour raisonnement/coding documenté, Claude Opus 4.7 pour orchestration d’outils documentée, et Insufficient evidence pour départager DeepSeek V4 et Kimi K2.6 numériquement.

Sources

^[1] A new look for Artificial Analysis
^[2] GPT-5.5 System Card - Deployment Safety Hub - OpenAI
^[3] Everything You Need to Know About GPT-5.5
^[6] GPT-5.5 and the broken state of government evals
^[7] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude
^[11] Introducing GPT-5.5 - OpenAI
^[13] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis
^[14] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark

來源

[1] Everything You Need to Know About GPT-5.5vellum.ai
3. Cybersecurity capabilities are accelerating faster than safeguards.A 93% cyber range pass rate, combined with a universal jailbreak found in six hours of red-teaming, is the tension that defines this era of AI. 4. The pricing shift favors heavy users.The...
[3] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[6] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[8] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Read the latest Image 7 Kimi K2.6: The new leading open weights model Benchmarks and Analysis of Kimi K2.6 April 21, 2026Image 8 Opus 4.7: Everything you need to know Benchmarks and Analysis of Opus 4.7 April 17, 2026Image 9 Sub-32B Open Weights Benchmark a...
[14] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude (2026)buildfastwithai.com
MCP-Atlas: Claude Opus 4.7 scores 79.1% versus GPT-5.5's 75.3%. For teams heavily invested in multi-tool orchestration via the Model Context Protocol, Claude's lead on this benchmark reflects better tool-call reliability in complex, chained scenarios. A not...
[15] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
— OpenAI (@OpenAI) April 23, 2026 OpenAI said the improvements go beyond benchmarks. Early testers reported that GPT-5.5 better understands system architecture and failure points. It can identify where fixes belong and predict downstream impacts across a co...
[19] GPT-5.5 and the broken state of government evalstransformernews.ai
In other words: we do not know if GPT-5.5 is actually safe to release. All we have to rely on is OpenAI’s word. Such a situation may have been acceptable in 2023. In 2026, with models posing genuine risks to national security and plenty of other vital syste...
[20] A new look for Artificial Analysisartificialanalysis.ai
DeepSeek is back among the leading open weights models with the release of DeepSeek V4 ... Benchmarks and Analysis of Kimi K2.6. April 21, 2026. Apr 10, 2026
[21] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Large 10 point gain in Intelligence Index: DeepSeek V4 Pro (Max) scores 52 on the Artificial Analysis Intelligence Index, up from 42 for V3.2, ... 3 days ago

熱門發現

報告已發布2026年4月28日Last edited 2026年5月6日9 來源

GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：唔好只睇總排名

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

先睇真正可比嘅分數

範疇 / benchmark	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	小心解讀
ARC-AGI-1 Verified	95.0% ^[6]	93.5% ^[6]	來源未有同場可比數字	來源未有同場可比數字	喺 OpenAI 表內，GPT-5.5 高 Claude Opus 4.7 1.5 個百分點 ^[6]。
ARC-AGI-2 Verified	85.0% ^[6]	75.8% ^[6]	來源未有同場可比數字	來源未有同場可比數字	GPT-5.5 優勢更明顯，但要記住呢組係 OpenAI 發佈頁列出嘅測試設定 ^[6]。
MCP-Atlas	75.3% ^[14]	79.1% ^[14]	來源未有同場可比數字	來源未有同場可比數字	Claude Opus 4.7 喺呢個工具調度 benchmark 領先 GPT-5.5 ^[14]。
Terminal-Bench 2.0 / coding agentic	82.7% 報告值 ^[15]	來源未有同場可比數字	來源未有同場可比數字	來源未有同場可比數字	對 GPT-5.5 係強訊號，但唔係四個模型嘅完整同場排名 ^[15]。
Open-weights / Artificial Analysis	呢度唔作同類比較	呢度唔作同類比較	DeepSeek V4 Pro (Max) 喺 Artificial Analysis Intelligence Index 報 52，V3.2 係 42 ^[21]	Artificial Analysis 有 Kimi K2.6: The new leading open weights model 一文，但提供資料未有可用分數 ^[8]	Open-weights 訊號重要，但唔可以代替共同 benchmark ^[8] ^[20] ^[21]。
安全 / cyber	CoT-Control 包括超過 13,000 個任務；另有二手來源指 93% cyber range 通過率，亦指紅隊六小時內找到通用 jailbreak ^[1] ^[3]	來源未有同場可比數字	來源未有同場可比數字	來源未有同場可比數字	呢啲資料唔構成四模型安全排名 ^[1] ^[3] ^[19]。

抽象推理：GPT-5.5 喺 ARC-AGI 贏，但唔好過度解讀

工具代理：Claude Opus 4.7 喺 MCP-Atlas 佔優

換句話講，如果你個產品重點係外部工具、MCP orchestration、連鎖 workflow，而唔只係答題，Claude Opus 4.7 喺呢項 benchmark 上嘅訊號更靚 ^[14]。

Coding agentic：GPT-5.5 有最硬數字，但未係全勝證明

DeepSeek V4 同 Kimi K2.6：開放權重候選值得試，但唔好硬排

安全同 cyberscecurity：能力高，唔等於一定安全

外部批評亦提醒，GPT-5.5 安全評估好大程度仍依賴 OpenAI 自身披露，令外界單靠供應商資料可以下嘅結論有限 ^[19]。

如果要揀模型，應該點落決定？

抽象推理：按目前 ARC-AGI 數字，GPT-5.5 對 Claude Opus 4.7 較有根據地領先；但要記住 xhigh reasoning effort 同研究環境呢個限制 ^[6]。
多工具 agent / MCP workflow：Claude Opus 4.7 喺 MCP-Atlas 以 79.1% 對 75.3% 領先 GPT-5.5，對重度工具調度團隊值得優先測 ^[14]。
Terminal coding agent：GPT-5.5 喺 Terminal-Bench 2.0 有 82.7% 呢個最清楚數字，但缺少另外三個模型嘅同場完整分數 ^[15]。
Open-weights 部署：DeepSeek V4 同 Kimi K2.6 都值得放入 shortlist，特別係你重視開放權重或部署控制；但目前資料未足以直接判定邊個全面勝出 ^[8] ^[20] ^[21]。
高風險或安全敏感場景：能力 benchmark、cyber range、jailbreak、第三方安全審查要分開處理；唔好用一個高分代替風險評估 ^[1] ^[3] ^[19]。

最唔應該得出嘅結論

最後，唔好將能力分數當安全保證。GPT-5.5 相關資料本身已經顯示，高 cyber 表現可以同 jailbreak 風險、評估獨立性問題同時存在 ^[1] ^[19]。

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。
GPT 5.5 喺 OpenAI 表內 ARC AGI 1/2 分別為 95.0%/85.0%，高過 Claude Opus 4.7 嘅 93.5%/75.8%；但 Claude 喺 MCP Atlas 以 79.1% 對 75.3% 領先 [6] [14]。
Coding agentic 最清楚嘅數字係 GPT 5.5 喺 Terminal Bench 2.0 有 82.7%；安全同 cyber 分數要分開睇，唔可以當成整體可靠性保證 [1] [3] [15] [19]。

人們還問

「GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：唔好只睇總排名」的簡短答案是什麼？

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

Coding agentic 最清楚嘅數字係 GPT 5.5 喺 Terminal Bench 2.0 有 82.7%；安全同 cyber 分數要分開睇，唔可以當成整體可靠性保證 [1] [3] [15] [19]。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月27日

研究問題

Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet.

Studio Global AI2026年4月27日29 來源

引用的答案

Key findings

GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement ^[11].
OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics ^[11].
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source ^[7].
GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark ^[14].
La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles ^[2].
Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté ^[3].
Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 ^[1] ^[13].

Tableau comparatif des benchmarks récupérés

Benchmark / domaine	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Lecture prudente
ARC-AGI-1 Verified / raisonnement abstrait	95.0% ^[11]	93.5% ^[11]	Insufficient evidence	Insufficient evidence	GPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI ^[11].
ARC-AGI-2 Verified / raisonnement abstrait plus difficile	85.0% ^[11]	75.8% ^[11]	Insufficient evidence	Insufficient evidence	GPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI ^[11].
MCP-Atlas / orchestration d’outils	75.3% ^[7]	79.1% ^[7]	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis ^[7].
Terminal-Bench 2.0 / coding agentique terminal	82.7% ^[14]	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète ^[14].
Cyber range / cybersécurité offensive-défensive	93% de réussite rapporté ^[3]	Insufficient evidence	Insufficient evidence	Insufficient evidence	Le score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming ^[3].
CoT-Control / contrôlabilité du raisonnement	Suite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré ^[2]	Insufficient evidence	Insufficient evidence	Insufficient evidence	Benchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle ^[2].
Classement open-weights	Non open-weights dans les sources récupérées	Non open-weights dans les sources récupérées	Signalé comme retour parmi les modèles open-weights de tête ^[1]	Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis ^[13]	Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent ^[1] ^[13].

Analyse par modèle

GPT-5.5

GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires ^[2] ^[11] ^[13].

Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified ^[11].

Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée ^[7].

Claude Opus 4.7

Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées ^[7] ^[11].

Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI ^[11].

Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI ^[11].

Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils ^[7].

DeepSeek V4

DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête ^[1].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.

Kimi K2.6

Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts ^[13].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.

Comparaison qualitative

Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré ^[11].
Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% ^[7].
Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles ^[14].
Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête ^[1] ^[13].
Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 ^[2] ^[11] ^[13].

Evidence notes

La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche ^[11].
La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro ^[2].
La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration ^[7].
Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée ^[6].

Limitations / uncertainty

Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets ^[1] ^[13].
Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.
Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche ^[11].
Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement ^[3].

Summary

GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 ^[11] ^[14].

Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes ^[7].

Sources

來源

[1] Everything You Need to Know About GPT-5.5vellum.ai
3. Cybersecurity capabilities are accelerating faster than safeguards.A 93% cyber range pass rate, combined with a universal jailbreak found in six hours of red-teaming, is the tension that defines this era of AI. 4. The pricing shift favors heavy users.The...
[3] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[6] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[8] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Read the latest Image 7 Kimi K2.6: The new leading open weights model Benchmarks and Analysis of Kimi K2.6 April 21, 2026Image 8 Opus 4.7: Everything you need to know Benchmarks and Analysis of Opus 4.7 April 17, 2026Image 9 Sub-32B Open Weights Benchmark a...
[14] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude (2026)buildfastwithai.com
MCP-Atlas: Claude Opus 4.7 scores 79.1% versus GPT-5.5's 75.3%. For teams heavily invested in multi-tool orchestration via the Model Context Protocol, Claude's lead on this benchmark reflects better tool-call reliability in complex, chained scenarios. A not...
[15] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
— OpenAI (@OpenAI) April 23, 2026 OpenAI said the improvements go beyond benchmarks. Early testers reported that GPT-5.5 better understands system architecture and failure points. It can identify where fixes belong and predict downstream impacts across a co...
[19] GPT-5.5 and the broken state of government evalstransformernews.ai
In other words: we do not know if GPT-5.5 is actually safe to release. All we have to rely on is OpenAI’s word. Such a situation may have been acceptable in 2023. In 2026, with models posing genuine risks to national security and plenty of other vital syste...
[20] A new look for Artificial Analysisartificialanalysis.ai
DeepSeek is back among the leading open weights models with the release of DeepSeek V4 ... Benchmarks and Analysis of Kimi K2.6. April 21, 2026. Apr 10, 2026
[21] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Large 10 point gain in Intelligence Index: DeepSeek V4 Pro (Max) scores 52 on the Artificial Analysis Intelligence Index, up from 42 for V3.2, ... 3 days ago

熱門發現

報告已發布2026年4月28日Last edited 2026年5月6日9 來源

GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：唔好只睇總排名

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

先睇真正可比嘅分數

範疇 / benchmark	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	小心解讀
ARC-AGI-1 Verified	95.0% ^[6]	93.5% ^[6]	來源未有同場可比數字	來源未有同場可比數字	喺 OpenAI 表內，GPT-5.5 高 Claude Opus 4.7 1.5 個百分點 ^[6]。
ARC-AGI-2 Verified	85.0% ^[6]	75.8% ^[6]	來源未有同場可比數字	來源未有同場可比數字	GPT-5.5 優勢更明顯，但要記住呢組係 OpenAI 發佈頁列出嘅測試設定 ^[6]。
MCP-Atlas	75.3% ^[14]	79.1% ^[14]	來源未有同場可比數字	來源未有同場可比數字	Claude Opus 4.7 喺呢個工具調度 benchmark 領先 GPT-5.5 ^[14]。
Terminal-Bench 2.0 / coding agentic	82.7% 報告值 ^[15]	來源未有同場可比數字	來源未有同場可比數字	來源未有同場可比數字	對 GPT-5.5 係強訊號，但唔係四個模型嘅完整同場排名 ^[15]。
Open-weights / Artificial Analysis	呢度唔作同類比較	呢度唔作同類比較	DeepSeek V4 Pro (Max) 喺 Artificial Analysis Intelligence Index 報 52，V3.2 係 42 ^[21]	Artificial Analysis 有 Kimi K2.6: The new leading open weights model 一文，但提供資料未有可用分數 ^[8]	Open-weights 訊號重要，但唔可以代替共同 benchmark ^[8] ^[20] ^[21]。
安全 / cyber	CoT-Control 包括超過 13,000 個任務；另有二手來源指 93% cyber range 通過率，亦指紅隊六小時內找到通用 jailbreak ^[1] ^[3]	來源未有同場可比數字	來源未有同場可比數字	來源未有同場可比數字	呢啲資料唔構成四模型安全排名 ^[1] ^[3] ^[19]。

抽象推理：GPT-5.5 喺 ARC-AGI 贏，但唔好過度解讀

工具代理：Claude Opus 4.7 喺 MCP-Atlas 佔優

換句話講，如果你個產品重點係外部工具、MCP orchestration、連鎖 workflow，而唔只係答題，Claude Opus 4.7 喺呢項 benchmark 上嘅訊號更靚 ^[14]。

Coding agentic：GPT-5.5 有最硬數字，但未係全勝證明

DeepSeek V4 同 Kimi K2.6：開放權重候選值得試，但唔好硬排

安全同 cyberscecurity：能力高，唔等於一定安全

外部批評亦提醒，GPT-5.5 安全評估好大程度仍依賴 OpenAI 自身披露，令外界單靠供應商資料可以下嘅結論有限 ^[19]。

如果要揀模型，應該點落決定？

抽象推理：按目前 ARC-AGI 數字，GPT-5.5 對 Claude Opus 4.7 較有根據地領先；但要記住 xhigh reasoning effort 同研究環境呢個限制 ^[6]。
多工具 agent / MCP workflow：Claude Opus 4.7 喺 MCP-Atlas 以 79.1% 對 75.3% 領先 GPT-5.5，對重度工具調度團隊值得優先測 ^[14]。
Terminal coding agent：GPT-5.5 喺 Terminal-Bench 2.0 有 82.7% 呢個最清楚數字，但缺少另外三個模型嘅同場完整分數 ^[15]。
Open-weights 部署：DeepSeek V4 同 Kimi K2.6 都值得放入 shortlist，特別係你重視開放權重或部署控制；但目前資料未足以直接判定邊個全面勝出 ^[8] ^[20] ^[21]。
高風險或安全敏感場景：能力 benchmark、cyber range、jailbreak、第三方安全審查要分開處理；唔好用一個高分代替風險評估 ^[1] ^[3] ^[19]。

最唔應該得出嘅結論

最後，唔好將能力分數當安全保證。GPT-5.5 相關資料本身已經顯示，高 cyber 表現可以同 jailbreak 風險、評估獨立性問題同時存在 ^[1] ^[19]。

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。
GPT 5.5 喺 OpenAI 表內 ARC AGI 1/2 分別為 95.0%/85.0%，高過 Claude Opus 4.7 嘅 93.5%/75.8%；但 Claude 喺 MCP Atlas 以 79.1% 對 75.3% 領先 [6] [14]。
Coding agentic 最清楚嘅數字係 GPT 5.5 喺 Terminal Bench 2.0 有 82.7%；安全同 cyber 分數要分開睇，唔可以當成整體可靠性保證 [1] [3] [15] [19]。

人們還問

「GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：唔好只睇總排名」的簡短答案是什麼？

現有可比數據主要集中喺 GPT 5.5 同 Claude Opus 4.7；DeepSeek V4、Kimi K2.6 多數只見 open weights 訊號，未有同一套評測完整分數 [6] [8] [14] [15] [20] [21]。

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

Coding agentic 最清楚嘅數字係 GPT 5.5 喺 Terminal Bench 2.0 有 82.7%；安全同 cyber 分數要分開睇，唔可以當成整體可靠性保證 [1] [3] [15] [19]。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月27日

研究問題

Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet.

Studio Global AI2026年4月27日29 來源

引用的答案

Key findings

GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement ^[11].
OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics ^[11].
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source ^[7].
GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark ^[14].
La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles ^[2].
Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté ^[3].
Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 ^[1] ^[13].

Tableau comparatif des benchmarks récupérés

Benchmark / domaine	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Lecture prudente
ARC-AGI-1 Verified / raisonnement abstrait	95.0% ^[11]	93.5% ^[11]	Insufficient evidence	Insufficient evidence	GPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI ^[11].
ARC-AGI-2 Verified / raisonnement abstrait plus difficile	85.0% ^[11]	75.8% ^[11]	Insufficient evidence	Insufficient evidence	GPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI ^[11].
MCP-Atlas / orchestration d’outils	75.3% ^[7]	79.1% ^[7]	Insufficient evidence	Insufficient evidence	Claude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis ^[7].
Terminal-Bench 2.0 / coding agentique terminal	82.7% ^[14]	Insufficient evidence	Insufficient evidence	Insufficient evidence	GPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète ^[14].
Cyber range / cybersécurité offensive-défensive	93% de réussite rapporté ^[3]	Insufficient evidence	Insufficient evidence	Insufficient evidence	Le score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming ^[3].
CoT-Control / contrôlabilité du raisonnement	Suite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré ^[2]	Insufficient evidence	Insufficient evidence	Insufficient evidence	Benchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle ^[2].
Classement open-weights	Non open-weights dans les sources récupérées	Non open-weights dans les sources récupérées	Signalé comme retour parmi les modèles open-weights de tête ^[1]	Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis ^[13]	Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent ^[1] ^[13].

Analyse par modèle

GPT-5.5

GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires ^[2] ^[11] ^[13].

Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified ^[11].

Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée ^[7].

Claude Opus 4.7

Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées ^[7] ^[11].

Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI ^[11].

Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI ^[11].

Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils ^[7].

DeepSeek V4

DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête ^[1].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.

Kimi K2.6

Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts ^[13].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.

Comparaison qualitative

Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré ^[11].
Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% ^[7].
Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles ^[14].
Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête ^[1] ^[13].
Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 ^[2] ^[11] ^[13].

Evidence notes

La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche ^[11].
La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro ^[2].
La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration ^[7].
Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée ^[6].

Limitations / uncertainty

Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets ^[1] ^[13].
Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.
Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche ^[11].
Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement ^[3].

Summary

GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 ^[11] ^[14].

Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes ^[7].

Sources

來源

[1] Everything You Need to Know About GPT-5.5vellum.ai
3. Cybersecurity capabilities are accelerating faster than safeguards.A 93% cyber range pass rate, combined with a universal jailbreak found in six hours of red-teaming, is the tension that defines this era of AI. 4. The pricing shift favors heavy users.The...
[3] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
[6] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[8] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Read the latest Image 7 Kimi K2.6: The new leading open weights model Benchmarks and Analysis of Kimi K2.6 April 21, 2026Image 8 Opus 4.7: Everything you need to know Benchmarks and Analysis of Opus 4.7 April 17, 2026Image 9 Sub-32B Open Weights Benchmark a...
[14] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude (2026)buildfastwithai.com
MCP-Atlas: Claude Opus 4.7 scores 79.1% versus GPT-5.5's 75.3%. For teams heavily invested in multi-tool orchestration via the Model Context Protocol, Claude's lead on this benchmark reflects better tool-call reliability in complex, chained scenarios. A not...
[15] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
— OpenAI (@OpenAI) April 23, 2026 OpenAI said the improvements go beyond benchmarks. Early testers reported that GPT-5.5 better understands system architecture and failure points. It can identify where fixes belong and predict downstream impacts across a co...
[19] GPT-5.5 and the broken state of government evalstransformernews.ai
In other words: we do not know if GPT-5.5 is actually safe to release. All we have to rely on is OpenAI’s word. Such a situation may have been acceptable in 2023. In 2026, with models posing genuine risks to national security and plenty of other vital syste...
[20] A new look for Artificial Analysisartificialanalysis.ai
DeepSeek is back among the leading open weights models with the release of DeepSeek V4 ... Benchmarks and Analysis of Kimi K2.6. April 21, 2026. Apr 10, 2026
[21] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Large 10 point gain in Intelligence Index: DeepSeek V4 Pro (Max) scores 52 on the Artificial Analysis Intelligence Index, up from 42 for V3.2, ... 3 days ago