Ici, n.d. signifie que la valeur n’est pas disponible dans les sources utilisées, pas que le modèle a obtenu zéro.
Sur GPQA Diamond, Claude Opus 4.7 devance légèrement GPT-5.5 : 94,2 % contre 93,6 %, tandis que DeepSeek-V4-Pro-Max atteint 90,1 % . Sur Humanity’s Last Exam sans outils, l’écart en faveur de Claude est plus net : 46,9 % contre 41,4 % pour GPT-5.5, 43,1 % pour GPT-5.5 Pro et 37,7 % pour DeepSeek-V4-Pro-Max
.
Mais le classement change dès que les outils sont autorisés. Dans HLE avec outils, GPT-5.5 Pro atteint 57,2 %, devant Claude Opus 4.7 à 54,7 %, GPT-5.5 à 52,2 % et DeepSeek-V4-Pro-Max à 48,2 % . La lecture la plus juste est donc la suivante : Claude paraît plus solide en raisonnement pur sans outils, tandis que GPT-5.5 Pro prend l’avantage dans le raisonnement augmenté par outils sur cette ligne HLE
.
La plus forte avance de GPT-5.5 dans cette sélection se voit sur Terminal-Bench 2.0 : 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 67,9 % pour DeepSeek-V4-Pro-Max . Pour Kimi K2.6, la carte modèle indique 66,7 sur Terminal-Bench 2.0 ; un leaderboard LLM Stats donne aussi 0,667 pour Kimi K2.6 et 0,694 pour Claude Opus 4.7
. Kimi se situe donc près du bloc Claude/DeepSeek sur cette échelle, mais reste nettement sous GPT-5.5 si l’on se réfère à la table commune
.
Sur SWE-Bench Pro / SWE Pro, le tableau est différent. Claude Opus 4.7 mène avec 64,3 %, devant GPT-5.5 à 58,6 % et DeepSeek-V4-Pro-Max à 55,4 % . Kimi K2.6 affiche aussi 58,6 sur SWE-Bench Pro dans sa carte Hugging Face, mais ce chiffre ne provient pas du même passage comparatif que la table commune
.
SWE-Bench Verified demande encore plus de prudence. Pour Kimi K2.6, la carte modèle et le fichier d’évaluation indiquent 80,2 . Un autre aperçu de DeepSeek V4 donne 87,6 % pour Claude Opus 4.7 et 80,6 % pour DeepSeek V4-Pro, mais il ne fournit pas une ligne complète pour GPT-5.5 et ne concerne pas DeepSeek-V4-Pro-Max
. Il vaut donc mieux ne pas transformer cette ligne en classement général des quatre modèles.
GPT-5.5 se distingue surtout sur Terminal-Bench 2.0 : ses 82,7 % constituent le meilleur résultat de la table commune sur cette ligne . GPT-5.5 Pro n’est pas renseigné partout, mais il mène là où il apparaît : 57,2 % sur HLE avec outils et 90,1 % sur BrowseComp
.
En pratique, GPT-5.5 est donc le premier candidat à tester pour des scénarios agentiques en terminal. GPT-5.5 Pro est plus pertinent lorsque le cas d’usage combine raisonnement, outils externes et navigation web .
Claude Opus 4.7 arrive en tête sur plusieurs lignes de la table commune : 94,2 % sur GPQA Diamond, 46,9 % sur HLE sans outils, 64,3 % sur SWE-Bench Pro / SWE Pro et 79,1 % sur MCP Atlas / MCPAtlas Public . En revanche, il cède la première place à GPT-5.5 sur Terminal-Bench 2.0, et à GPT-5.5 Pro sur HLE avec outils et BrowseComp
.
Pour du raisonnement difficile sans outils, ou pour des tâches de code proches de SWE-Bench Pro, Claude Opus 4.7 ressort comme le meilleur premier choix dans les données disponibles .
Kimi K2.6 ne peut pas être classé strictement contre tous les autres sur une seule table commune, car ses chiffres viennent d’une carte Hugging Face et d’un fichier d’évaluation séparé . Cela dit, son profil coding est notable : 80,2 sur SWE-Bench Verified, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual, 66,7 sur Terminal-Bench 2.0 et 73,1 sur OSWorld-Verified
.
Son autre intérêt est opérationnel : une source indique que ses poids sont disponibles sur Hugging Face et que l’exécution peut se faire via vLLM, SGLang ou KTransformers . Cela ne fait pas de Kimi le vainqueur de la table globale, mais en fait un candidat à part pour les équipes qui veulent tester l’autohébergement, l’inférence contrôlée ou des expérimentations locales
.
Dans la table commune, DeepSeek est représenté par DeepSeek-V4-Pro-Max . Sur les lignes citées, il ne prend pas la première place : 90,1 % sur GPQA Diamond, 37,7 % sur HLE sans outils, 48,2 % sur HLE avec outils, 67,9 % sur Terminal-Bench 2.0, 55,4 % sur SWE-Bench Pro / SWE Pro, 83,4 % sur BrowseComp et 73,6 % sur MCP Atlas / MCPAtlas Public
.
Son argument principal, dans cette sélection, n’est donc pas le sommet absolu des benchmarks, mais le rapport prix/performance. Mashable et DataCamp indiquent des prix API DeepSeek V4 de 1,74 $ par million de tokens d’entrée et 3,48 $ par million de tokens de sortie ; les mêmes sources donnent 5 $/30 $ pour GPT-5.5 et 5 $/25 $ pour Claude Opus 4.7 . Si le budget est la contrainte numéro un, DeepSeek V4 mérite une évaluation interne, sans pour autant être présenté comme le leader de ces benchmarks
.
Sur les lignes réellement comparables, Claude Opus 4.7 gagne GPQA Diamond, Humanity’s Last Exam sans outils, SWE-Bench Pro et MCP Atlas ; GPT-5.5 gagne Terminal-Bench 2.0 ; GPT-5.5 Pro gagne HLE avec outils et BrowseComp . Kimi K2.6 ressemble à un candidat sérieux pour le code avec poids disponibles, mais il ne doit pas être classé à égalité méthodologique avec les autres sans passage de test commun
. DeepSeek V4, lui, n’est pas le leader de ces lignes de benchmarks, mais ses prix API publiés en font un modèle à intégrer dans les essais lorsque le coût compte autant que la performance brute
.
Comments
0 comments