studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản9 nguồn

GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Der vorsichtige Benchmark-Vergleich

Ein sauberer Vierer Vergleich fehlt: GPT 5.5 liegt in OpenAIs ARC AGI Werten vor Claude Opus 4.7, Claude führt auf MCP Atlas [6] [14]. Für agentisches Coding ist GPT 5.5 mit 82,7 % auf Terminal Bench 2.0 der klarste dokumentierte Wert, aber nicht automatisch ein Gesamtsieg gegen alle Modelle [15].

17K0
Illustration comparant les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6
GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarksComparaison prudente des scores disponibles : ARC-AGI, MCP-Atlas, coding agentique et signaux open-weights.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarks. Article summary: Il n’y a pas de classement global fiable des quatre modèles dans les sources disponibles : GPT 5.5 mène face à Claude Opus 4.7 sur ARC AGI avec 95,0 % et 85,0 % contre 93,5 % et 75,8 %, Claude mène sur MCP Atlas avec.... Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.you

openai.com

Der naheliegende Vergleich wäre eine Rangliste von Platz eins bis vier. Genau das geben die verfügbaren Daten aber nicht her. Die belastbarsten gemeinsamen Zahlen betreffen vor allem GPT-5.5 und Claude Opus 4.7 auf einzelnen Benchmarks. DeepSeek V4 und Kimi K2.6 tauchen in den zitierten Quellen eher als starke Open-Weights-Signale auf, nicht als vollständig vergleichbare Einträge in denselben Tests [6] [8] [14] [15] [20] [21].

Für eine Produkt- oder Tool-Entscheidung ist deshalb die Frage nach dem Einsatzgebiet wichtiger als die Suche nach einem Gesamtsieger: GPT-5.5 hat in den vorliegenden ARC-AGI-Werten gegenüber Claude Opus 4.7 die Nase vorn, Claude Opus 4.7 führt auf MCP-Atlas, GPT-5.5 liefert das klarste zitierte Coding-Signal, und DeepSeek V4 sowie Kimi K2.6 lassen sich mit den hier verfügbaren Daten nicht sauber auf denselben Skalen einordnen [6] [14] [15] [20] [21].

Die wirklich vergleichbaren Zahlen

Bereich oder BenchmarkGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6Vorsichtige Lesart
ARC-AGI-1 Verified95,0 % [6]93,5 % [6]Kein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenGPT-5.5 liegt in der OpenAI-Tabelle 1,5 Punkte vor Claude Opus 4.7 [6].
ARC-AGI-2 Verified85,0 % [6]75,8 % [6]Kein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenDer Abstand zugunsten von GPT-5.5 ist hier deutlicher, allerdings bleibt die OpenAI-Methodik zu beachten [6].
MCP-Atlas75,3 % [14]79,1 % [14]Kein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenClaude Opus 4.7 liegt auf diesem Benchmark für Tool-Orchestrierung vor GPT-5.5 [14].
Terminal-Bench 2.0 / agentisches Coding82,7 % berichtet [15]Kein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenStarkes Signal für GPT-5.5, aber kein vollständiges Vierer-Ranking [15].
Open-Weights / Artificial AnalysisHier nicht vergleichbarHier nicht vergleichbarDeepSeek V4 Pro (Max) wird mit 52 im Artificial Analysis Intelligence Index angegeben, gegenüber 42 für V3.2 [21]Artificial Analysis verweist auf eine Analyse mit dem Titel Kimi K2.6: The new leading open weights model, ohne im vorliegenden Material einen direkt nutzbaren Score zu liefern [8]Diese Signale sind wichtig, ersetzen aber keinen gemeinsamen Benchmark [8] [20] [21].
Safety und CybersicherheitCoT-Control umfasst mehr als 13.000 Aufgaben; eine Sekundärquelle berichtet außerdem 93 % auf einem Cyber Range und einen universellen Jailbreak nach sechs Stunden Red-Teaming [1] [3]Kein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenKein vergleichbarer Wert in den zitierten QuellenDas ist kein Safety-Ranking der vier Modelle [1] [3] [19].

Fehlende Einträge bedeuten nicht, dass DeepSeek V4 oder Kimi K2.6 schwach wären. Sie bedeuten nur: In den hier vorliegenden Quellen gibt es keine sauber vergleichbaren Scores auf denselben Benchmarks, mit denselben Einstellungen und derselben Detailtiefe [8] [20] [21].

ARC-AGI: GPT-5.5 führt, aber nur in diesem Ausschnitt

Auf den beiden in OpenAIs Launch-Seite genannten ARC-AGI-Werten liegt GPT-5.5 vor Claude Opus 4.7. Bei ARC-AGI-1 Verified erreicht GPT-5.5 95,0 %, Claude Opus 4.7 93,5 %. Bei ARC-AGI-2 Verified sind es 85,0 % gegenüber 75,8 % [6].

Das ist ein klarer Vorsprung auf diesen Messpunkten. Es ist aber kein Beweis, dass GPT-5.5 in jedem realen Szenario überlegen ist. Entscheidend ist auch die Methodik: OpenAI weist darauf hin, dass die GPT-Evaluierungen mit Reasoning Effort „xhigh“ in einer Forschungsumgebung liefen und die Ausgaben in Einzelfällen leicht von Produktions-ChatGPT abweichen können [6].

Für Leserinnen und Leser, die Benchmarks vor allem als Kaufargument sehen: ARC-AGI ist ein nützliches Signal für abstraktes Schlussfolgern. Es ist aber nicht dasselbe wie Zuverlässigkeit in langen Tool-Ketten, Kostenkontrolle, Latenz oder Sicherheit im Betrieb.

Tool-Agenten: Claude Opus 4.7 hat das stärkste MCP-Signal

Der wichtigste Punkt zugunsten von Claude Opus 4.7 kommt aus MCP-Atlas. Eine Sekundäranalyse nennt 79,1 % für Claude Opus 4.7 und 75,3 % für GPT-5.5. Der Vorsprung wird dort mit zuverlässigerem Tool-Calling in komplexen, verketteten Szenarien über das Model Context Protocol verbunden [14].

Das ist für Teams relevant, die nicht nur Text generieren lassen, sondern Agenten bauen: Systeme, die mehrere externe Werkzeuge, Datenquellen oder Arbeitsschritte in einer Kette koordinieren. Wenn ein Produkt stark von MCP-Orchestrierung, Tool-Aufrufen und mehrstufigen Workflows abhängt, spricht der hier zitierte Benchmark eher für Claude Opus 4.7 als für GPT-5.5 [14].

Agentisches Coding: Starkes GPT-5.5-Signal, aber kein endgültiger Sieg

Für Terminal- und Coding-Agenten liegt der klarste zitierte Einzelwert bei GPT-5.5: 82,7 % auf Terminal-Bench 2.0 [15]. Das ist der verwertbarste Coding-Wert in den angegebenen Quellen dieses Vergleichs.

Die Einschränkung ist genauso wichtig wie die Zahl selbst. Für Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 liefern die hier verfügbaren Quellen keine vollständige Terminal-Bench-2.0-Tabelle. Sauber formuliert heißt das: GPT-5.5 hat auf diesem Punkt das stärkste dokumentierte Signal, aber daraus folgt nicht automatisch, dass es die drei anderen Modelle unter allen Coding-Bedingungen schlägt [15].

DeepSeek V4 und Kimi K2.6: Ernst zu nehmen, aber hier schwer zu ranken

DeepSeek V4 und Kimi K2.6 spielen vor allem in der Open-Weights-Kategorie eine Rolle, also bei Modellen, deren Gewichte zugänglich sind und die für bestimmte Deployment-Strategien interessanter sein können. Die zitierten Quellen reichen aber nicht aus, um sie sauber mit GPT-5.5 und Claude Opus 4.7 auf ARC-AGI, MCP-Atlas oder Terminal-Bench 2.0 zu vergleichen [8] [20] [21].

Für DeepSeek meldet Artificial Analysis, dass DeepSeek mit V4 wieder zu den führenden Open-Weights-Modellen zählt [20]. Der konkreteste hier verfügbare Zahlenwert betrifft DeepSeek V4 Pro (Max): 52 Punkte im Artificial Analysis Intelligence Index, nach 42 Punkten für DeepSeek V3.2 [21].

Für Kimi K2.6 verweist Artificial Analysis auf eine Analyse mit dem Titel Kimi K2.6: The new leading open weights model [8]. Das ist ein starkes Positionierungssignal. Es liefert in den vorliegenden Quellen aber nicht die Score-Tabelle, die nötig wäre, um Kimi K2.6 direkt gegen DeepSeek V4, GPT-5.5 und Claude Opus 4.7 auf denselben Benchmarks auszuwerten [8] [21].

Safety und Cybersicherheit: Fähigkeiten sind keine Sicherheitsgarantie

Bei Safety-Werten ist besondere Vorsicht angebracht. Die GPT-5.5-Systemkarte beschreibt CoT-Control als Evaluierungssuite mit mehr als 13.000 Aufgaben, die auf etablierten Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified aufbauen [3]. Das sagt etwas über die Kontrolle von Chain-of-Thought-Anweisungen aus, ist aber kein direkter Vierer-Vergleich zwischen GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 [3].

Eine weitere Quelle berichtet für GPT-5.5 93 % Erfolgsquote auf einem Cyber Range, also einer simulierten Cyberumgebung, nennt zugleich aber einen universellen Jailbreak, der innerhalb von sechs Stunden Red-Teaming gefunden worden sein soll [1]. Beides muss zusammen gelesen werden: Hohe Leistung in Cyberaufgaben bedeutet nicht automatisch robuste Sicherheit im breiten Einsatz [1].

Eine externe Kritik betont außerdem, dass die Safety-Einschätzung von GPT-5.5 stark von OpenAIs eigenen Angaben abhängt. Das begrenzt, was man allein aus veröffentlichten Anbieterinformationen schließen sollte [19].

Welches Modell passt zu welchem Einsatz?

  • Abstraktes Schlussfolgern: GPT-5.5 ist gegenüber Claude Opus 4.7 auf den zitierten ARC-AGI-Werten besser belegt. Der Hinweis auf „xhigh“ Reasoning Effort und Forschungsumgebung bleibt aber wichtig [6].
  • Multi-Tool-Agenten und MCP-Workflows: Claude Opus 4.7 hat mit 79,1 % gegenüber 75,3 % für GPT-5.5 den besseren zitierten MCP-Atlas-Wert [14].
  • Agentisches Coding im Terminal: GPT-5.5 liefert mit 82,7 % auf Terminal-Bench 2.0 den klarsten Zahlenwert. Die Vergleichsdaten für die anderen drei Modelle fehlen hier jedoch [15].
  • Open-Weights-Deployments: DeepSeek V4 und Kimi K2.6 sollten geprüft werden, wenn offene Gewichte, Deployment-Kontrolle oder Kosten-Leistungs-Abwägungen im Vordergrund stehen. Die vorhandenen Quellen reichen aber nicht für ein gemeinsames Ranking [8] [20] [21].
  • Sensible oder regulierte Anwendungen: Capability-Benchmarks, Cyber-Ergebnisse und Safety-Evaluierungen messen unterschiedliche Dinge. Sie sollten nicht in einen einzigen Score vermischt werden [1] [3] [19].

Was man daraus nicht schließen sollte

Man sollte nicht folgern, GPT-5.5 sei automatisch das beste Modell für alles, nur weil es in den verfügbaren ARC-AGI-Werten vor Claude Opus 4.7 liegt [6]. Ebenso wenig belegt der MCP-Atlas-Vorsprung von Claude Opus 4.7 eine generelle Überlegenheit in allen Aufgaben [14]. Jeder Benchmark misst einen anderen Ausschnitt.

Auch DeepSeek V4 und Kimi K2.6 lassen sich auf Basis der vorliegenden Quellen nicht fair gegen die beiden großen proprietären Modelle einordnen. Die Artificial-Analysis-Signale zeigen, dass beide im Open-Weights-Ökosystem relevant sind, aber sie ersetzen keine identische Testmatrix mit denselben Metriken [8] [20] [21].

Und schließlich gilt: Ein hoher Fähigkeitswert ist keine Safety-Garantie. Die verfügbaren Informationen zu GPT-5.5 zeigen gerade, dass starke Cyber-Performance neben offenen Fragen zu Jailbreaks und unabhängiger Prüfung stehen kann [1] [19].

Fazit

Der ehrlichste Vergleich lautet: GPT-5.5 führt in den verfügbaren ARC-AGI-Werten gegenüber Claude Opus 4.7 und hat das klarste zitierte Signal für agentisches Coding. Claude Opus 4.7 führt auf MCP-Atlas. DeepSeek V4 und Kimi K2.6 sind relevante Open-Weights-Kandidaten, lassen sich mit den hier verfügbaren Daten aber nicht sauber gegen die beiden anderen Modelle ranken [6] [8] [14] [15] [20] [21].

Für eine reale Entscheidung zählt daher nicht die schönste Rangliste, sondern ein eigener Test auf den eigenen Aufgaben: Reasoning, Tool-Aufrufe, Code, Latenz, Kosten, Deployment-Vorgaben und akzeptables Risiko.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Ein sauberer Vierer Vergleich fehlt: GPT 5.5 liegt in OpenAIs ARC AGI Werten vor Claude Opus 4.7, Claude führt auf MCP Atlas [6] [14].
  • Für agentisches Coding ist GPT 5.5 mit 82,7 % auf Terminal Bench 2.0 der klarste dokumentierte Wert, aber nicht automatisch ein Gesamtsieg gegen alle Modelle [15].
  • DeepSeek V4 und Kimi K2.6 sind wichtige Open Weights Kandidaten, doch die zitierten Quellen liefern keine gemeinsamen Scores für ein belastbares Ranking [8] [20] [21].
  • Safety und Cyberwerte müssen getrennt von Leistungsbenchmarks gelesen werden; hohe Fähigkeit ist keine Sicherheitsgarantie [1] [3] [19].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Der vorsichtige Benchmark-Vergleich" là gì?

Ein sauberer Vierer Vergleich fehlt: GPT 5.5 liegt in OpenAIs ARC AGI Werten vor Claude Opus 4.7, Claude führt auf MCP Atlas [6] [14].

Những điểm chính cần xác nhận đầu tiên là gì?

Ein sauberer Vierer Vergleich fehlt: GPT 5.5 liegt in OpenAIs ARC AGI Werten vor Claude Opus 4.7, Claude führt auf MCP Atlas [6] [14]. Für agentisches Coding ist GPT 5.5 mit 82,7 % auf Terminal Bench 2.0 der klarste dokumentierte Wert, aber nicht automatisch ein Gesamtsieg gegen alle Modelle [15].

Tôi nên làm gì tiếp theo trong thực tế?

DeepSeek V4 und Kimi K2.6 sind wichtige Open Weights Kandidaten, doch die zitierten Quellen liefern keine gemeinsamen Scores für ein belastbares Ranking [8] [20] [21].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet.

Studio Global AI29 nguồn

Câu trả lời được trích dẫn

J’ai trouvé des données vérifiables pour GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT-5.5 semble en tête sur raisonnement abstrait et coding agentique dans les sources disponibles, Claude Opus 4.7 devance GPT-5.5 sur l’orchestration d’outils MCP-Atlas, et les données récupérées sont insuffisantes pour départager proprement DeepSeek V4 et Kimi K2.6.

Key findings

  • GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement [11].

  • OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics [11].

  • Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source [7].

  • GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark [14].

  • La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles [2].

  • Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté [3].

  • Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 [1] [13].

Tableau comparatif des benchmarks récupérés

Benchmark / domaineGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6Lecture prudente
ARC-AGI-1 Verified / raisonnement abstrait95.0% [11]93.5% [11]Insufficient evidenceInsufficient evidenceGPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI [11].
ARC-AGI-2 Verified / raisonnement abstrait plus difficile85.0% [11]75.8% [11]Insufficient evidenceInsufficient evidenceGPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI [11].
MCP-Atlas / orchestration d’outils75.3% [7]79.1% [7]Insufficient evidenceInsufficient evidenceClaude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis [7].
Terminal-Bench 2.0 / coding agentique terminal82.7% [14]Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète [14].
Cyber range / cybersécurité offensive-défensive93% de réussite rapporté [3]Insufficient evidenceInsufficient evidenceInsufficient evidenceLe score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming [3].
CoT-Control / contrôlabilité du raisonnementSuite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré [2]Insufficient evidenceInsufficient evidenceInsufficient evidenceBenchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle [2].
Classement open-weightsNon open-weights dans les sources récupéréesNon open-weights dans les sources récupéréesSignalé comme retour parmi les modèles open-weights de tête [1]Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis [13]Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent [1] [13].

Analyse par modèle

GPT-5.5

GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires [2] [11] [13].

Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified [11].

Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée [7].

Sur Terminal-Bench 2.0, GPT-5.5 est rapporté à 82.7%, ce qui suggère une forte performance en coding agentique, mais la comparaison avec les trois autres modèles reste incomplète dans les sources récupérées [14].

Côté sûreté et cybersécurité, une source rapporte 93% sur cyber range, mais signale aussi qu’un jailbreak universel a été trouvé en six heures de red-teaming, donc ce résultat ne doit pas être interprété comme une sûreté globale démontrée [3].

Claude Opus 4.7

Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées [7] [11].

Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI [11].

Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI [11].

Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils [7].

Les sources récupérées ne fournissent pas de score fiable pour Claude Opus 4.7 sur Terminal-Bench 2.0, cyber range, CoT-Control ou un benchmark open-weights, donc toute conclusion au-delà des trois mesures ci-dessus serait spéculative.

DeepSeek V4

DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête [1].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.

Kimi K2.6

Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts [13].

Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.

Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.

Comparaison qualitative

  • Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré [11].

  • Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% [7].

  • Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles [14].

  • Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête [1] [13].

  • Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 [2] [11] [13].

Evidence notes

  • La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche [11].

  • La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro [2].

  • La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration [7].

  • Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée [6].

Limitations / uncertainty

  • Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets [1] [13].

  • Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.

  • Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche [11].

  • Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement [3].

Summary

GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 [11] [14].

Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes [7].

DeepSeek V4 et Kimi K2.6 semblent importants dans le segment open-weights, mais les sources récupérées ne donnent pas assez de scores exploitables pour les comparer rigoureusement aux deux modèles propriétaires [1] [13].

Le rapport le plus honnête est donc un classement par domaine plutôt qu’un classement global : GPT-5.5 pour raisonnement/coding documenté, Claude Opus 4.7 pour orchestration d’outils documentée, et Insufficient evidence pour départager DeepSeek V4 et Kimi K2.6 numériquement.

Sources

[1] A new look for Artificial Analysis
[2] GPT-5.5 System Card - Deployment Safety Hub - OpenAI
[3] Everything You Need to Know About GPT-5.5
[6] GPT-5.5 and the broken state of government evals
[7] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude
[11] Introducing GPT-5.5 - OpenAI
[13] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis
[14] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark

Nguồn

  • [1] Everything You Need to Know About GPT-5.5vellum.ai

    3. Cybersecurity capabilities are accelerating faster than safeguards.A 93% cyber range pass rate, combined with a universal jailbreak found in six hours of red-teaming, is the tension that defines this era of AI. 4. The pricing shift favors heavy users.The...

  • [3] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [6] Introducing GPT-5.5 - OpenAIopenai.com

    Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...

  • [8] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai

    Read the latest Image 7 Kimi K2.6: The new leading open weights model Benchmarks and Analysis of Kimi K2.6 April 21, 2026Image 8 Opus 4.7: Everything you need to know Benchmarks and Analysis of Opus 4.7 April 17, 2026Image 9 Sub-32B Open Weights Benchmark a...

  • [14] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude (2026)buildfastwithai.com

    MCP-Atlas: Claude Opus 4.7 scores 79.1% versus GPT-5.5's 75.3%. For teams heavily invested in multi-tool orchestration via the Model Context Protocol, Claude's lead on this benchmark reflects better tool-call reliability in complex, chained scenarios. A not...

  • [15] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com

    — OpenAI (@OpenAI) April 23, 2026 OpenAI said the improvements go beyond benchmarks. Early testers reported that GPT-5.5 better understands system architecture and failure points. It can identify where fixes belong and predict downstream impacts across a co...

  • [19] GPT-5.5 and the broken state of government evalstransformernews.ai

    In other words: we do not know if GPT-5.5 is actually safe to release. All we have to rely on is OpenAI’s word. Such a situation may have been acceptable in 2023. In 2026, with models posing genuine risks to national security and plenty of other vital syste...

  • [20] A new look for Artificial Analysisartificialanalysis.ai

    DeepSeek is back among the leading open weights models with the release of DeepSeek V4 ... Benchmarks and Analysis of Kimi K2.6. April 21, 2026. Apr 10, 2026

  • [21] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Large 10 point gain in Intelligence Index: DeepSeek V4 Pro (Max) scores 52 on the Artificial Analysis Intelligence Index, up from 42 for V3.2, ... 3 days ago