Les benchmarks de grands modèles ne sont pas une compétition sportive avec un arbitre unique. DataCamp rappelle, dans un comparatif de modèles frontière, que certains scores sont déclarés par les fournisseurs et que les configurations de test, ou harness, peuvent différer . Cela change beaucoup de choses : niveau d’effort de raisonnement, usage d’outils, variantes du modèle, paramètres de test, ou encore façon de compter une réussite.
Les variantes ne sont d’ailleurs pas toujours les mêmes. Artificial Analysis cite GPT-5.5 xhigh, GPT-5.5 high et Claude Opus 4.7 avec Adaptive Reasoning et Max Effort . VentureBeat parle de DeepSeek-V4-Pro-Max
. Ces distinctions sont particulièrement importantes pour les tâches de code, de navigation web ou d’agent autonome.
La bonne question n’est donc pas seulement : quel modèle est numéro un ? Elle est plutôt : pour quel usage les données disponibles donnent-elles l’avantage à tel ou tel modèle ?
L’indicateur général le plus clair dans les sources est l’extrait de l’Artificial Analysis Intelligence Index. GPT-5.5 xhigh y apparaît en tête avec 60 points, suivi de GPT-5.5 high avec 59 points, puis de Claude Opus 4.7 avec 57 points dans sa configuration Adaptive Reasoning, Max Effort .
Ce n’est pas une preuve absolue que GPT-5.5 bat tout le monde dans tous les contextes. Mais, dans les données disponibles, c’est le meilleur élément pour soutenir l’idée que GPT-5.5 a l’avantage global le plus solide . Pour DeepSeek V4 et Kimi K2.6, le même extrait ne fournit pas assez de valeurs directement citables pour un classement complet à quatre
.
BrowseComp est le comparatif direct le plus utile entre GPT-5.5, Claude Opus 4.7 et DeepSeek V4. VentureBeat donne 90,1 % pour GPT-5.5 Pro, 84,4 % pour GPT-5.5, 83,4 % pour DeepSeek V4 et 79,3 % pour Claude Opus 4.7 .
La nuance est importante : VentureBeat estime que DeepSeek-V4-Pro-Max ne détrône pas GPT-5.5 ou Claude Opus 4.7 sur l’ensemble des benchmarks directement comparables, même s’il se rapproche fortement sur plusieurs mesures . Autrement dit, DeepSeek V4 impressionne surtout parce qu’il combine un score élevé avec un coût plus faible, pas parce qu’il remporte clairement tous les tests
.
Sur le développement logiciel, il n’y a pas de champion unique. Claude Opus 4.7 mène sur SWE-Bench Pro avec 64,3 %, contre 58,6 % pour GPT-5.5 . Vellum cite aussi 87,6 % pour Claude Opus 4.7 sur SWE-Bench Verified
.
Mais GPT-5.5 reprend nettement l’avantage sur Terminal-Bench 2.0 : 82,7 %, contre 69,4 % pour Claude Opus 4.7 .
Pour DeepSeek V4 et Kimi K2.6, les sources fournies ne donnent pas la même granularité dans cette catégorie. VentureBeat indique que DeepSeek V4 se rapproche des modèles de tête sur plusieurs benchmarks comparables, notamment Terminal-Bench 2.0 et MCP Atlas, mais les chiffres les plus clairement citables dans l’extrait concernent surtout BrowseComp . Pour Kimi K2.6, DocsBot fournit principalement des informations d’architecture et de positionnement, pas une matrice complète de résultats face à GPT-5.5, Claude Opus 4.7 et DeepSeek V4
.
Sur les tests de connaissances et de raisonnement, GPT-5.5 et Claude Opus 4.7 sont proches, avec des inversions selon le protocole. Sur GPQA Diamond, Claude Opus 4.7 obtient 94,2 %, légèrement devant GPT-5.5 à 93,6 % .
Sur Humanity’s Last Exam, Mashable donne 40,6 % pour GPT-5.5 contre 31,2 % pour Claude Opus 4.7 sans outils ; avec outils, Claude Opus 4.7 passe devant avec 54,7 %, contre 52,2 % pour GPT-5.5 .
Les benchmarks professionnels donnent aussi une image partagée. GPT-5.5 est devant sur GDPval, 84,9 % contre 80,3 %, et très légèrement devant sur OSWorld-Verified, 78,7 % contre 78,0 % . Claude Opus 4.7 mène sur MCP Atlas, 79,1 % contre 75,3 %, et sur FinanceAgent v1.1, 64,4 % contre 60,0 %
.
Anthropic met aussi en avant un benchmark interne de recherche agentique dans lequel Claude Opus 4.7 partage le meilleur score global, 0,715, sur six modules, et atteint 0,813 dans le module General Finance contre 0,767 pour Opus 4.6 . Comme il s’agit d’un benchmark interne et qu’il ne couvre pas les quatre modèles de façon symétrique, il vaut surtout comme indice de la force agentique de Claude, pas comme classement indépendant
.
En production, quelques points de benchmark ne suffisent pas. Le coût par million de tokens, c’est-à-dire les unités de texte facturées et traitées par l’API, peut devenir décisif.
Mashable cite pour DeepSeek V4 un prix de 1,74 $ par million de tokens en entrée et 3,48 $ par million de tokens en sortie, avec une fenêtre de contexte de 1 million de tokens . Dans la même source, GPT-5.5 est indiqué à 5 $ en entrée et 30 $ en sortie, tandis que Claude Opus 4.7 est indiqué à 5 $ en entrée et 25 $ en sortie, chacun avec 1 million de tokens de contexte
.
C’est ici que DeepSeek V4 marque le plus de points : même sans être couronné meilleur modèle global, il devient très attractif si l’on doit traiter de gros volumes de requêtes ou de documents .
Kimi K2.6 mérite d’être distingué des trois autres modèles dans ce comparatif. DocsBot le présente comme le dernier modèle open source de Moonshot AI, multimodal natif et agentique, orienté vers le code long horizon, le design piloté par le code, l’exécution autonome proactive et l’orchestration de tâches en essaim .
La fiche mentionne une architecture MoE à 1T de paramètres, 32 milliards de paramètres activés, 256 000 tokens de contexte, ainsi qu’une orchestration pouvant aller jusqu’à 300 sous-agents et 4 000 étapes coordonnées . Ce sont des caractéristiques techniques notables. Mais elles ne remplacent pas des résultats de benchmarks directement comparables face à GPT-5.5, Claude Opus 4.7 et DeepSeek V4
.
Conclusion pratique : Kimi K2.6 est à surveiller, surtout pour les personnes qui veulent tester un modèle ouvert, multimodal et agentique. Mais avec les sources disponibles ici, le placer devant ou derrière les trois autres serait plus spéculatif que rigoureux .
Le résultat le plus solide n’est pas qu’un modèle écrase tous les autres. GPT-5.5 est le meilleur généraliste étayé par les sources disponibles, grâce à sa première place dans l’extrait Artificial Analysis et à ses bons scores sur BrowseComp, Terminal-Bench 2.0 et plusieurs benchmarks professionnels .
Claude Opus 4.7 reste un modèle de tout premier plan, surtout pour le code, GPQA Diamond et certaines tâches agentiques ou financières . DeepSeek V4 est le choix le plus frappant côté rapport performances/prix, car il se rapproche de GPT-5.5 sur BrowseComp tout en affichant des prix API bien plus bas dans les données citées
. Kimi K2.6, enfin, ne doit être ni surestimé ni écarté : les caractéristiques sont intéressantes, mais il manque encore des mesures comparables pour le classer honnêtement
.
Comments
0 comments