| GPT-5.5 |
|---|
| Claude Opus 4.7 |
|---|
| DeepSeek V4 |
|---|
| Kimi K2.6 |
|---|
| Lecture prudente |
|---|
Les cases vides ne disent pas que DeepSeek V4 ou Kimi K2.6 sont faibles. Elles disent seulement que les sources fournies ne donnent pas de scores homogènes, sur les mêmes benchmarks, avec les mêmes réglages et le même niveau de détail
.
Sur ARC-AGI, benchmark présenté par OpenAI dans la catégorie du raisonnement abstrait, GPT-5.5 devance Claude Opus 4.7 sur les deux mesures disponibles. Il obtient 95,0 % sur ARC-AGI-1 Verified contre 93,5 % pour Claude Opus 4.7, puis 85,0 % sur ARC-AGI-2 Verified contre 75,8 % .
C’est le signal le plus clair en faveur de GPT-5.5 dans les données comparables. Mais il faut lire la note méthodologique : OpenAI précise que les évaluations GPT ont été menées avec un effort de raisonnement « xhigh » dans un environnement de recherche, ce qui peut produire des sorties légèrement différentes de celles observées dans ChatGPT en production .
Autrement dit : GPT-5.5 gagne ce duel sur ces deux scores ARC-AGI. Cela ne suffit pas à conclure qu’il dominera tous les cas d’usage réels, ni tous les réglages d’inférence.
Le meilleur signal en faveur de Claude Opus 4.7 vient de MCP-Atlas. Une analyse secondaire rapporte 79,1 % pour Claude Opus 4.7 contre 75,3 % pour GPT-5.5, en reliant cet écart à une meilleure fiabilité des appels d’outils dans des scénarios complexes et chaînés via le Model Context Protocol, ou MCP .
Pour les équipes qui construisent des agents capables d’appeler plusieurs outils, de récupérer du contexte externe et d’enchaîner des étapes, ce type de benchmark peut compter autant qu’un score de raisonnement pur. Si le produit dépend fortement de workflows MCP, le signal cité ici favorise Claude Opus 4.7 sur ce terrain précis .
GPT-5.5 est rapporté à 82,7 % sur Terminal-Bench 2.0, un benchmark associé aux tâches de terminal et au coding agentique . C’est le chiffre le plus directement exploitable dans les sources fournies pour parler de code.
La limite est pourtant essentielle : les sources citées ne donnent pas de tableau Terminal-Bench 2.0 complet pour Claude Opus 4.7, DeepSeek V4 et Kimi K2.6. La conclusion prudente est donc que GPT-5.5 dispose du meilleur signal chiffré disponible ici pour le coding agentique, non qu’il bat nécessairement les trois autres modèles dans toutes les situations de développement .
DeepSeek V4 et Kimi K2.6 doivent être pris au sérieux dans la catégorie des modèles à poids ouverts, souvent appelés « open weights ». Dans l’usage courant, cette expression désigne des modèles dont les poids sont accessibles selon certaines conditions, ce qui les distingue des modèles purement propriétaires. Mais cela ne crée pas automatiquement une comparaison équitable avec GPT-5.5 et Claude Opus 4.7.
Pour DeepSeek, Artificial Analysis indique que la sortie de DeepSeek V4 replace DeepSeek parmi les modèles open weights de tête . Le chiffre le plus précis disponible ici concerne DeepSeek V4 Pro (Max), rapporté à 52 sur l’Artificial Analysis Intelligence Index, contre 42 pour DeepSeek V3.2
.
Pour Kimi K2.6, Artificial Analysis met en avant une analyse intitulée « Kimi K2.6: The new leading open weights model » . C’est un signal de positionnement fort, mais les sources fournies ne donnent pas les scores nécessaires pour comparer proprement Kimi K2.6 à DeepSeek V4, GPT-5.5 et Claude Opus 4.7 sur ARC-AGI, MCP-Atlas ou Terminal-Bench 2.0
.
La bonne approche consiste donc à les traiter comme des candidats sérieux à évaluer localement, notamment si les poids ouverts, le contrôle du déploiement ou les arbitrages coût-performance sont prioritaires. Mais il manque ici le benchmark commun qui permettrait de les ranger sans nuance derrière ou devant les modèles propriétaires
.
Les benchmarks de capacité ne sont pas des garanties de sûreté. La system card de GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks établis, dont GPQA, MMLU-Pro, HLE, BFCL et SWE-Bench Verified . Cet élément éclaire la contrôlabilité du raisonnement, mais il ne fournit pas un classement de sûreté entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6
.
Une autre source rapporte pour GPT-5.5 un taux de réussite de 93 % sur un cyber range, tout en signalant qu’un jailbreak universel aurait été trouvé en six heures de red-teaming . Ces deux informations doivent être lues ensemble : une forte performance sur des tâches cyber ne démontre pas une sûreté globale du modèle
.
Enfin, une critique externe souligne que l’évaluation de la sûreté de GPT-5.5 dépend fortement des déclarations d’OpenAI, ce qui limite les conclusions possibles à partir des seules informations publiées par le fournisseur .
Il ne faut pas conclure que GPT-5.5 est le meilleur modèle universel simplement parce qu’il mène sur ARC-AGI face à Claude Opus 4.7 dans les scores disponibles . Il ne faut pas non plus conclure que Claude Opus 4.7 est globalement supérieur parce qu’il gagne sur MCP-Atlas
. Chaque benchmark mesure un angle différent.
Il serait également prématuré de classer DeepSeek V4 et Kimi K2.6 contre les deux modèles propriétaires sans benchmarks communs. Les signaux d’Artificial Analysis montrent qu’ils comptent dans l’écosystème open weights, mais ils ne remplacent pas une évaluation homogène sur les mêmes tâches
.
Le verdict le plus solide tient donc en une phrase : GPT-5.5 mène sur les scores ARC-AGI disponibles face à Claude Opus 4.7 et possède le signal de coding agentique le plus exploitable ici ; Claude Opus 4.7 mène sur MCP-Atlas ; DeepSeek V4 et Kimi K2.6 restent des candidats open weights importants, mais insuffisamment comparables dans les sources fournies
.
Pour une décision produit, le bon réflexe n’est pas de chercher un champion abstrait. Il faut tester les modèles sur ses propres tâches : raisonnement, appels d’outils, code, coût, latence, contraintes de déploiement et niveau de risque acceptable.
Comments
0 comments