| Raisonnement avec outils | GPT-5.5 Pro | 57,2 % sur Humanity’s Last Exam avec outils, devant Claude Opus 4.7 à 54,7 % |
| Terminal et agents informatiques | GPT-5.5 | 82,7 % sur Terminal-Bench 2.0, devant Claude Opus 4.7 à 69,4 % et DeepSeek-V4-Pro-Max à 67,9 % |
| Pilotage d’un environnement OS | GPT-5.5 | 78,7 % sur OSWorld-Verified contre 78,0 % pour Claude Opus 4.7 |
| Mathématiques de très haut niveau | GPT-5.5 | 51,7 % sur FrontierMath Tiers 1–3 contre 43,8 % pour Claude Opus 4.7 |
| Génie logiciel dans la table partagée | Claude Opus 4.7 | 64,3 % sur SWE-Bench Pro / SWE Pro, devant GPT-5.5 à 58,6 % et DeepSeek-V4-Pro-Max à 55,4 % |
| Navigation web et compréhension de pages | GPT-5.5 Pro | 90,1 % sur BrowseComp, devant GPT-5.5 à 84,4 %, DeepSeek-V4-Pro-Max à 83,4 % et Claude Opus 4.7 à 79,3 % |
| Workflows d’outils publics de type MCP | Claude Opus 4.7 | 79,1 % sur MCP Atlas / MCPAtlas Public, devant GPT-5.5 à 75,3 % et DeepSeek-V4-Pro-Max à 73,6 % |
| Vision et analyse de documents | Claude Opus 4.7 | Signalé numéro 1 dans Vision & Document Arena, avec des victoires en diagrammes, devoirs et OCR |
| Évaluation sensible au coût | DeepSeek V4 | VentureBeat décrit DeepSeek V4 comme proche de l’état de l’art à environ un sixième du coût d’Opus 4.7 et GPT-5.5, à vérifier sur votre propre charge de travail |
| Comparaison à quatre la moins propre | Kimi K2.6 | Les scores cités sont utiles, mais proviennent surtout de comparaisons séparées de la grande table GPT-5.5 / Claude / DeepSeek |
Les lignes qui mélangent plusieurs sources doivent être lues avec prudence. Un score Kimi rapporté dans une comparaison centrée sur Kimi est intéressant, mais il n’a pas la même force qu’un score produit dans le même tableau et le même protocole que GPT-5.5, Claude Opus 4.7 et DeepSeek-V4-Pro-Max .
Le gain le plus net de GPT-5.5 se trouve sur Terminal-Bench 2.0 : 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 67,9 % pour DeepSeek-V4-Pro-Max dans la table partagée . C’est l’un des écarts les plus importants de l’ensemble cité.
GPT-5.5 devance aussi Claude Opus 4.7 sur OSWorld-Verified, mais de très peu : 78,7 % contre 78,0 % . Sur FrontierMath Tiers 1–3, l’écart est plus large : 51,7 % pour GPT-5.5 contre 43,8 % pour Claude
.
Quand les outils et la navigation deviennent centraux, GPT-5.5 Pro change encore la lecture. Il mène Humanity’s Last Exam avec outils à 57,2 %, devant Claude Opus 4.7 à 54,7 %, GPT-5.5 à 52,2 % et DeepSeek-V4-Pro-Max à 48,2 % . Il mène aussi BrowseComp à 90,1 %, devant GPT-5.5 à 84,4 %, DeepSeek-V4-Pro-Max à 83,4 % et Claude Opus 4.7 à 79,3 %
.
GPT-5.5 ne domine toutefois pas tout le raisonnement. Claude Opus 4.7 le dépasse légèrement sur GPQA Diamond, 94,2 % contre 93,6 %, dans la table partagée . Des résultats propres à GPT-5.5 existent aussi sur des domaines comme Harvey BigLaw Bench à 91,7 %, un benchmark interne de banque d’investissement à 88,5 % et BixBench à 80,5 %, mais ils ne doivent pas être lus comme des victoires à quatre modèles car l’extrait cité ne donne pas les mêmes scores pour Claude Opus 4.7, DeepSeek V4 et Kimi K2.6
.
Claude Opus 4.7 présente le profil le plus solide en raisonnement sans outils dans la table principale. Il mène GPQA Diamond à 94,2 % et Humanity’s Last Exam sans outils à 46,9 % . Il mène également SWE-Bench Pro / SWE Pro à 64,3 % et MCP Atlas / MCPAtlas Public à 79,1 % dans cette même table
.
Sa faiblesse la plus visible, dans les données citées, concerne les tâches de terminal. GPT-5.5 devance Claude de plus de 13 points sur Terminal-Bench 2.0, 82,7 % contre 69,4 %, et le devance aussi sur OSWorld-Verified et FrontierMath Tiers 1–3 .
Claude a en revanche le meilleur signal cité pour la vision et les documents. Une source rapporte que Claude Opus 4.7 prend la première place de Vision & Document Arena, progresse de 4 points par rapport à Opus 4.6 dans Document Arena et gagne les sous-catégories diagrammes, devoirs et OCR . Cette source ne fournit pas de scores Vision & Document Arena comparables pour GPT-5.5, DeepSeek V4 ou Kimi K2.6 ; cela soutient donc la force documentaire de Claude, sans constituer un classement multimodal complet à quatre modèles
.
Les sources n’emploient pas toutes le même libellé DeepSeek. La table partagée parle de DeepSeek-V4-Pro-Max, tandis qu’une comparaison Artificial Analysis mentionne DeepSeek V4 Pro avec une fenêtre de contexte de 1 000k tokens . Ces noms ne doivent pas être traités comme automatiquement interchangeables.
Dans la table principale, DeepSeek-V4-Pro-Max est compétitif mais ne mène aucune ligne. Il obtient 90,1 % sur GPQA Diamond, 37,7 % sur Humanity’s Last Exam sans outils, 48,2 % sur Humanity’s Last Exam avec outils, 67,9 % sur Terminal-Bench 2.0, 55,4 % sur SWE-Bench Pro / SWE Pro, 83,4 % sur BrowseComp et 73,6 % sur MCP Atlas / MCPAtlas Public .
Son argument le plus fort dans les sources n’est donc pas une victoire de benchmark, mais le coût. VentureBeat décrit DeepSeek V4 comme offrant une intelligence proche de l’état de l’art à environ un sixième du coût d’Opus 4.7 et GPT-5.5 . C’est une bonne raison de l’inclure dans une évaluation si le budget est déterminant, mais pas une raison de se passer de tests qualité sur vos tâches réelles.
Pour les usages à très long contexte, une comparaison Artificial Analysis liste DeepSeek V4 Pro et Claude Opus 4.7 avec une fenêtre de contexte de 1 000k tokens . Cela indique une parité dans ces configurations précises, pas une vérité générale sur tous les modes DeepSeek ou Claude
.
Kimi K2.6 est le modèle le plus délicat à positionner dans ce comparatif, car il n’apparaît pas dans la grande table partagée contre GPT-5.5, Claude Opus 4.7 et DeepSeek-V4-Pro-Max . Une comparaison centrée sur Kimi rapporte K2.6 à 58,6 % sur SWE-Bench Pro, 80,2 % sur SWE-Bench Verified, 66,7 % sur Terminal-Bench 2.0, 54,0 % sur Humanity’s Last Exam avec outils et 89,6 % sur LiveCodeBench v6
. La même source indique que les chiffres K2.6 viennent d’une model card officielle de Moonshot AI, mais le comparatif principal porte surtout sur Claude Opus 4.6 et GPT-5.4, pas exactement sur le quatuor étudié ici
.
Une autre comparaison Kimi vs DeepSeek donne Kimi K2.6 à 96,4 % sur AIME 2026 en Thinking mode, 27,9 % sur APEX Agents en Thinking mode et 83,2 % sur BrowseComp avec Thinking mode et gestion du contexte . Dans cette même source, DeepSeek-V4 Pro est listé à 83,4 % sur BrowseComp, tandis que les valeurs DeepSeek ne sont pas disponibles pour AIME 2026 et APEX Agents
.
Kimi mérite donc d’être testé, notamment pour le code, les agents, les maths et la navigation. Mais les sources disponibles ne justifient pas un classement global propre contre GPT-5.5 et Claude Opus 4.7 sur une suite identique de benchmarks .
Ce comparatif n’est pas un classement universel. Les sources mélangent des variantes de base et Pro, notamment GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 et Kimi K2.6 . Certaines valeurs sont aussi déclarées par les fournisseurs, et OpenAI précise que ses évaluations GPT pour ARC ont été réalisées avec un effort de raisonnement xhigh dans un environnement de recherche pouvant produire des sorties légèrement différentes de ChatGPT en production
.
Les faibles écarts doivent être traités comme des signaux directionnels. L’avance de Claude sur GPT-5.5 dans GPQA Diamond est de 0,6 point, et l’avance de GPT-5.5 sur Claude dans OSWorld-Verified est de 0,7 point . Les écarts plus larges sont plus actionnables : GPT-5.5 dépasse Claude de plus de 13 points sur Terminal-Bench 2.0 et de 7,9 points sur FrontierMath
.
Conclusion pratique : il n’y a pas de vainqueur unique entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6. Choisissez d’abord la catégorie de benchmark qui ressemble le plus à votre travail réel, puis relancez la même évaluation sur les modèles que vous pouvez effectivement déployer.
Comments
0 comments