J’ai trouvé des données vérifiables pour GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT-5.5 semble en tête sur raisonnement abstrait et coding agentique dans les sources disponibles, Claude Opus 4.7 devance GPT-5.5 sur l’orchestration d’outils MCP-Atlas, et les données récupérées sont insuffisantes pour départager proprement DeepSeek V4 et Kimi K2.6.
Key findings
-
GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement [11].
-
OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics [11].
-
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source [7].
-
GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark [
14].
-
La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles [2].
-
Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté [
3].
-
Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 [
1] [13].
Tableau comparatif des benchmarks récupérés
| Benchmark / domaine | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Lecture prudente |
|---|
| ARC-AGI-1 Verified / raisonnement abstrait | 95.0% [11] | 93.5% [11] | Insufficient evidence | Insufficient evidence | GPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI [11]. |
| ARC-AGI-2 Verified / raisonnement abstrait plus difficile | 85.0% [11] | 75.8% [11] | Insufficient evidence | Insufficient evidence | GPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI [11]. |
| MCP-Atlas / orchestration d’outils | 75.3% [7] | 79.1% [7] | Insufficient evidence | Insufficient evidence | Claude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis [7]. |
| Terminal-Bench 2.0 / coding agentique terminal | 82.7% [ 14] | Insufficient evidence | Insufficient evidence | Insufficient evidence | GPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète [ 14]. |
| Cyber range / cybersécurité offensive-défensive | 93% de réussite rapporté [ 3] | Insufficient evidence | Insufficient evidence | Insufficient evidence | Le score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming [ 3]. |
| CoT-Control / contrôlabilité du raisonnement | Suite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré [2] | Insufficient evidence | Insufficient evidence | Insufficient evidence | Benchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle [2]. |
| Classement open-weights | Non open-weights dans les sources récupérées | Non open-weights dans les sources récupérées | Signalé comme retour parmi les modèles open-weights de tête [ 1] | Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis [13] | Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent [ 1] [13]. |
Analyse par modèle
GPT-5.5
GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires [2] [11] [13].
Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified [11].
Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée [7].
Sur Terminal-Bench 2.0, GPT-5.5 est rapporté à 82.7%, ce qui suggère une forte performance en coding agentique, mais la comparaison avec les trois autres modèles reste incomplète dans les sources récupérées [
14].
Côté sûreté et cybersécurité, une source rapporte 93% sur cyber range, mais signale aussi qu’un jailbreak universel a été trouvé en six heures de red-teaming, donc ce résultat ne doit pas être interprété comme une sûreté globale démontrée [
3].
Claude Opus 4.7
Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées [7] [11].
Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI [11].
Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI [11].
Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils [7].
Les sources récupérées ne fournissent pas de score fiable pour Claude Opus 4.7 sur Terminal-Bench 2.0, cyber range, CoT-Control ou un benchmark open-weights, donc toute conclusion au-delà des trois mesures ci-dessus serait spéculative.
DeepSeek V4
DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête [
1].
Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.
Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.
Kimi K2.6
Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts [13].
Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.
Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.
Comparaison qualitative
-
Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré [11].
-
Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% [7].
-
Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles [
14].
-
Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête [
1] [13].
-
Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 [2] [11] [13].
Evidence notes
-
La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche [11].
-
La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro [2].
-
La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration [7].
-
Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée [
6].
Limitations / uncertainty
-
Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets [
1] [13].
-
Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.
-
Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche [11].
-
Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement [
3].
Summary
GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 [11] [
14].
Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes [7].
DeepSeek V4 et Kimi K2.6 semblent importants dans le segment open-weights, mais les sources récupérées ne donnent pas assez de scores exploitables pour les comparer rigoureusement aux deux modèles propriétaires [
1] [13].
Le rapport le plus honnête est donc un classement par domaine plutôt qu’un classement global : GPT-5.5 pour raisonnement/coding documenté, Claude Opus 4.7 pour orchestration d’outils documentée, et Insufficient evidence pour départager DeepSeek V4 et Kimi K2.6 numériquement.
Sources
[
1] A new look for Artificial Analysis
[2] GPT-5.5 System Card - Deployment Safety Hub - OpenAI
[
3] Everything You Need to Know About GPT-5.5
[
6] GPT-5.5 and the broken state of government evals
[7] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude
[11] Introducing GPT-5.5 - OpenAI
[13] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis
[
14] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark