Dans le tableau ci-dessous, — signifie qu’aucun chiffre directement comparable n’a été trouvé dans les sources fournies. Cela ne veut pas dire que le modèle est incapable d’effectuer la tâche.
OpenAI présente GPT-5.5 comme son modèle le plus fort pour le codage agentique. L’entreprise indique qu’il atteint 82,7 % sur Terminal-Bench 2.0, un benchmark conçu pour tester des workflows complexes en ligne de commande nécessitant planification, itération et coordination d’outils . Sur SWE-Bench Pro, qui mesure la résolution d’issues GitHub réelles, GPT-5.5 atteint 58,6 %
.
Ces chiffres plaident pour GPT-5.5 lorsque le travail ressemble à une longue session de terminal : lancer des scripts, reproduire une erreur de CI, modifier des fichiers, relancer des commandes et corriger progressivement. En revanche, il ne faut pas en conclure que GPT-5.5 domine tout le codage. Sur SWE-Bench Pro, Claude Opus 4.7 est rapporté à 64,3 %, contre 58,6 % pour GPT-5.5 .
Claude Opus 4.7 est rapporté à 64,3 % sur SWE-Bench Pro et à 87,6 % sur SWE-Bench Verified . DataCamp précise que le modèle a été évalué sur 14 benchmarks couvrant le codage, le raisonnement, l’usage d’outils, l’usage d’ordinateur et le raisonnement visuel
.
Dans les comparaisons communes avec GPT-5.5, Claude Opus 4.7 devance aussi légèrement sur GPQA Diamond, avec 94,2 % contre 93,6 %, et sur MCP Atlas, avec 79,1 % contre 75,3 % . À l’inverse, GPT-5.5 garde l’avantage sur Terminal-Bench 2.0 et BrowseComp
.
En pratique, Claude Opus 4.7 paraît donc particulièrement pertinent pour les tâches de réparation, de revue, de refactorisation et de résolution d’issues réelles. Pour une automatisation terminal longue et très outillée, GPT-5.5 reste à tester en parallèle.
Kimi K2.6 est présenté avec 58,6 % sur SWE-Bench Pro et 80,2 % sur SWE-Bench Verified ; un autre guide indique aussi 66,7 % sur Terminal-Bench 2.0 et 54,0 % sur HLE with tools . Mais le même guide précise que les chiffres K2.6 proviennent de la carte modèle officielle de Moonshot AI et que SWE-Bench Pro utilise un harnais interne de Moonshot
.
Autrement dit, même si Kimi K2.6 et GPT-5.5 affichent tous deux 58,6 % sur SWE-Bench Pro, il serait imprudent d’y voir une égalité parfaite mesurée dans des conditions identiques .
L’intérêt de Kimi K2.6 se situe aussi ailleurs : il est présenté comme capable de traiter du texte, des images et de la vidéo, avec une route de contexte à 256k . Pour un produit qui doit analyser de longs documents, des captures, des vidéos ou des contextes mixtes, il mérite donc une évaluation dédiée.
Dans les sources disponibles, DeepSeek V4 ne dispose pas de chiffres directement alignés avec les lignes Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified ou GPQA Diamond du tableau. Artificial Analysis rapporte toutefois que DeepSeek V4 Pro Max obtient -10 sur AA-Omniscience, soit une amélioration de 11 points par rapport à V3.2, tandis que V4 Flash Max obtient -23 .
Le même article signale un point de vigilance majeur : DeepSeek V4 Pro et V4 Flash auraient des taux d’hallucination de 94 % et 96 %, ce qui signifie, selon Artificial Analysis, qu’ils répondent presque toujours même lorsqu’ils ne savent pas .
DeepSeek V4 reste néanmoins intéressant à examiner pour des raisons de structure et de coût. DataCamp décrit une architecture Mixture of Experts : la version Pro compterait 1,6 billion de paramètres au total, dont 49 milliards actifs, tandis que la version Flash compterait 284 milliards de paramètres au total, dont 13 milliards actifs . Côté prix, Mashable liste DeepSeek V4 nettement sous GPT-5.5 et Claude Opus 4.7 sur les tarifs API par million de tokens
.
Le bon usage de DeepSeek V4 est donc plutôt un workflow à gros volume, sensible au coût, avec contrôle interne des réponses, post-traitement et détection d’échec. Pour une application où l’exactitude est critique, les chiffres d’hallucination et l’absence de benchmarks communs imposent une validation sérieuse avant déploiement .
D’abord, les quatre modèles ne sont pas tous évalués dans les sources avec les mêmes prompts, les mêmes outils, le même budget de raisonnement et le même système de notation. GPT-5.5 et Claude Opus 4.7 ont plus de points de comparaison communs ; Kimi K2.6 mélange davantage de chiffres issus de carte modèle et de harnais interne ; DeepSeek V4 manque de lignes directement comparables sur plusieurs benchmarks clés .
Ensuite, deux scores portant le même nom de benchmark ne garantissent pas forcément une méthodologie identique. Une synthèse sur GPT-5.5 et Claude Opus 4.7 souligne que les scores sont comparables dans leur forme, mais pas nécessairement dans leur méthode . Anthropic indique par exemple avoir utilisé le harnais Terminus-2 et des conditions de ressources précises pour Terminal-Bench 2.0
.
Enfin, un benchmark ne résume pas la qualité d’un modèle en production. Il faut aussi regarder le type d’erreurs, le taux d’hallucination, la latence, le coût, la stabilité des appels d’outils, les contraintes de sécurité et la capacité à reproduire les résultats. ExplainX rappelle que les définitions de leaderboard, les prompts et les politiques d’outils peuvent faire bouger les scores, qui ne remplacent pas un harnais d’évaluation interne .
Sur les preuves publiques actuelles, la stratégie la plus raisonnable est la suivante : GPT-5.5 pour les agents de terminal, Claude Opus 4.7 pour la réparation de code type SWE-Bench, Kimi K2.6 pour le long contexte multimodal, et DeepSeek V4 pour les appels massifs où le coût prime, à condition de contrôler les réponses .
Comments
0 comments