Le bon comparatif n’est pas un podium unique. Les chiffres les plus solides disponibles comparent surtout GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, tandis que DeepSeek V4 et Kimi K2.6 apparaissent surtout dans des signaux open-weights moins directement comparables [6] [
8] [
14] [
15] [
20] [
21].
La conclusion la plus utile est donc par usage : GPT-5.5 a l’avantage documenté sur ARC-AGI face à Claude Opus 4.7, Claude mène sur MCP-Atlas, GPT-5.5 dispose du signal chiffré le plus clair en coding agentique, et les sources disponibles ne permettent pas de départager proprement DeepSeek V4 et Kimi K2.6 sur les mêmes tests [6] [
14] [
15] [
20] [
21].
Les scores vraiment comparables
| Domaine ou benchmark | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Lecture prudente |
|---|---|---|---|---|---|
| ARC-AGI-1 Verified | 95,0 % [ | 93,5 % [ | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | GPT-5.5 devance Claude Opus 4.7 de 1,5 point dans le tableau OpenAI [ |
| ARC-AGI-2 Verified | 85,0 % [ | 75,8 % [ | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | L’avantage de GPT-5.5 est plus net sur ARC-AGI-2, mais le protocole OpenAI doit être gardé en tête [ |
| MCP-Atlas | 75,3 % [ | 79,1 % [ | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | Claude Opus 4.7 est devant GPT-5.5 sur ce benchmark d’orchestration d’outils [ |
| Terminal-Bench 2.0 / coding agentique | 82,7 % rapporté [ | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | Signal fort pour GPT-5.5, mais pas de classement homogène des quatre modèles [ |
| Open-weights / Artificial Analysis | Non comparable ici | Non comparable ici | DeepSeek V4 Pro Max est rapporté à 52 sur l’Artificial Analysis Intelligence Index, contre 42 pour V3.2 [ | Artificial Analysis met en avant une analyse intitulée Kimi K2.6: The new leading open weights model, sans score exploitable dans les sources fournies [ | Les signaux open-weights sont importants, mais ils ne remplacent pas un benchmark commun [ |
| Sûreté et cybersécurité | CoT-Control comprend plus de 13 000 tâches ; une source secondaire rapporte aussi 93 % sur cyber range et un jailbreak universel trouvé en six heures [ | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | Pas de score comparable dans les sources citées | Ces éléments ne constituent pas un classement de sûreté entre les quatre modèles [ |
Les cases vides ne signifient pas que DeepSeek V4 ou Kimi K2.6 sont faibles. Elles signifient seulement que les sources disponibles ici ne donnent pas de scores homogènes sur les mêmes benchmarks, avec les mêmes réglages et le même niveau de détail [8] [
20] [
21].
Raisonnement abstrait : avantage GPT-5.5 sur ARC-AGI
Sur les deux scores ARC-AGI publiés dans la page de lancement d’OpenAI, GPT-5.5 devance Claude Opus 4.7. Il obtient 95,0 % sur ARC-AGI-1 Verified contre 93,5 % pour Claude Opus 4.7, puis 85,0 % sur ARC-AGI-2 Verified contre 75,8 % pour Claude Opus 4.7 [6].
Ce résultat ne prouve pas que GPT-5.5 est supérieur dans tous les cas. Il montre que GPT-5.5 bat Claude Opus 4.7 sur ces deux mesures de raisonnement abstrait, dans le tableau OpenAI cité [6]. La réserve méthodologique est importante : OpenAI précise que les évaluations GPT ont été exécutées avec un effort de raisonnement « xhigh » dans un environnement de recherche, ce qui peut produire des sorties légèrement différentes de celles observées dans ChatGPT en production [
6].
Agents et appels d’outils : Claude Opus 4.7 mène sur MCP-Atlas
Le signal le plus favorable à Claude Opus 4.7 vient de MCP-Atlas. Une analyse secondaire rapporte 79,1 % pour Claude Opus 4.7 contre 75,3 % pour GPT-5.5, en reliant cet avantage à une meilleure fiabilité des appels d’outils dans des scénarios complexes et chaînés via le Model Context Protocol [14].
Pour les équipes qui construisent des agents multi-outils, ce point peut peser autant que les scores de raisonnement pur. Si le produit dépend surtout d’orchestration MCP, d’outils externes et de workflows chaînés, le meilleur signal cité ici favorise Claude Opus 4.7 plutôt que GPT-5.5 sur ce benchmark précis [14].
Coding agentique : GPT-5.5 a le signal le plus net, pas une victoire complète
GPT-5.5 est rapporté à 82,7 % sur Terminal-Bench 2.0, un benchmark lié aux tâches de terminal et au coding agentique [15]. C’est le score de code le plus exploitable dans les sources citées pour ce comparatif.
La limite est aussi importante que le score : les sources disponibles ne fournissent pas une grille Terminal-Bench 2.0 complète pour Claude Opus 4.7, DeepSeek V4 et Kimi K2.6. La conclusion prudente est donc que GPT-5.5 dispose du meilleur signal documenté sur ce point, pas qu’il bat nécessairement les trois autres modèles dans toutes les conditions de coding agentique [15].
DeepSeek V4 et Kimi K2.6 : des candidats open-weights sérieux, mais difficiles à classer ici
DeepSeek V4 et Kimi K2.6 doivent être pris au sérieux dans la catégorie des modèles à poids ouverts, mais les données citées ne permettent pas un face-à-face rigoureux avec GPT-5.5 et Claude Opus 4.7 sur ARC-AGI, MCP-Atlas ou Terminal-Bench 2.0 [8] [
20] [
21].
Pour DeepSeek, Artificial Analysis indique que la sortie de DeepSeek V4 replace DeepSeek parmi les modèles open-weights de tête [20]. Le chiffre le plus précis disponible ici concerne DeepSeek V4 Pro Max, rapporté à 52 sur l’Artificial Analysis Intelligence Index, contre 42 pour DeepSeek V3.2 [
21].
Pour Kimi K2.6, Artificial Analysis met en avant une analyse intitulée Kimi K2.6: The new leading open weights model [8]. C’est un signal de positionnement fort, mais les sources fournies ne donnent pas les scores nécessaires pour comparer Kimi K2.6 à DeepSeek V4, GPT-5.5 et Claude Opus 4.7 sur les mêmes benchmarks [
8] [
21].
Sûreté et cybersécurité : ne pas confondre capacité et fiabilité
La system card de GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks établis, dont GPQA, MMLU-Pro, HLE, BFCL et SWE-Bench Verified [3]. Cet élément éclaire les évaluations de contrôlabilité du raisonnement, mais il ne fournit pas un score comparatif entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 [
3].
Une autre source rapporte pour GPT-5.5 un taux de réussite de 93 % sur un cyber range, tout en signalant qu’un jailbreak universel aurait été trouvé en six heures de red-teaming [1]. Ces deux informations doivent être lues ensemble : une forte performance sur des tâches cyber ne démontre pas une sûreté globale du modèle [
1].
Une critique externe souligne également que l’évaluation de la sûreté de GPT-5.5 dépend fortement des déclarations d’OpenAI, ce qui limite ce que l’on peut conclure à partir des seules informations publiées par le fournisseur [19].
Quel modèle choisir selon le cas d’usage ?
- Raisonnement abstrait documenté : GPT-5.5 est le choix le mieux étayé face à Claude Opus 4.7 dans les scores ARC-AGI cités, avec la réserve de l’effort de raisonnement « xhigh » en environnement de recherche [
6].
- Agents multi-outils et workflows MCP : Claude Opus 4.7 a le meilleur score cité sur MCP-Atlas, avec 79,1 % contre 75,3 % pour GPT-5.5 [
14].
- Coding agentique en terminal : GPT-5.5 a le signal chiffré le plus net, avec 82,7 % rapporté sur Terminal-Bench 2.0, mais la comparaison avec les trois autres modèles reste incomplète [
15].
- Déploiements open-weights : DeepSeek V4 et Kimi K2.6 méritent d’être testés si les poids ouverts, le contrôle de déploiement ou les arbitrages coût-performance sont prioritaires, mais les données citées ne donnent pas assez de scores communs pour trancher [
8] [
20] [
21].
- Cas sensibles à la sûreté : les benchmarks de capacité, les résultats cyber et les évaluations de sécurité doivent rester séparés ; ils ne prouvent pas la même chose [
1] [
3] [
19].
Ce qu’il ne faut pas conclure
Il ne faut pas conclure que GPT-5.5 est le meilleur modèle universel simplement parce qu’il mène sur ARC-AGI dans les scores disponibles face à Claude Opus 4.7 [6]. Il ne faut pas non plus conclure que Claude Opus 4.7 est globalement supérieur parce qu’il gagne sur MCP-Atlas [
14]. Chaque benchmark mesure un type de tâche différent.
Il ne faut pas classer DeepSeek V4 et Kimi K2.6 contre les deux modèles propriétaires sans benchmarks communs. Les signaux d’Artificial Analysis montrent que DeepSeek V4 et Kimi K2.6 sont importants dans l’écosystème open-weights, mais ils ne suffisent pas à établir un classement global sur les mêmes métriques que GPT-5.5 et Claude Opus 4.7 [8] [
20] [
21].
Enfin, il ne faut pas transformer un score de capacité en garantie de sûreté. Les informations disponibles sur GPT-5.5 montrent justement que des performances cyber élevées peuvent coexister avec des réserves sur les jailbreaks et l’indépendance des évaluations [1] [
19].
Conclusion
Le classement le plus honnête est le suivant : GPT-5.5 mène sur les benchmarks ARC-AGI disponibles face à Claude Opus 4.7 et dispose du meilleur signal chiffré cité pour le coding agentique ; Claude Opus 4.7 mène sur MCP-Atlas ; DeepSeek V4 et Kimi K2.6 restent des candidats open-weights importants, mais les données disponibles ne suffisent pas à les classer proprement face aux deux modèles propriétaires [6] [
8] [
14] [
15] [
20] [
21].
Pour une décision produit, le bon réflexe n’est pas de chercher un vainqueur universel. Il faut tester les modèles sur vos propres tâches : raisonnement, appels d’outils, code, coût, latence, contraintes de déploiement et niveau de risque acceptable.




