En 2026, un benchmark d’IA n’est plus un simple examen généraliste. Kili Technology distingue des familles d’évaluations très différentes : MMLU, MMLU-Pro et GPQA Diamond pour les connaissances et le raisonnement, SWE-Bench et Terminal-Bench pour le code, GAIA et WebArena pour les agents, GDPval pour le travail professionnel, ou encore des tests de sécurité . Le rapport AI Index de Stanford HAI suit lui aussi les performances techniques sur des axes séparés, dont MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME et SWE-bench Verified
.
Autre limite : certains tests historiques discriminent moins bien les modèles de tête. Nanonets rappelle que MMLU est calculé en mode 5-shot, c’est-à-dire avec cinq exemples fournis avant la question, et souligne qu’en 2026 les meilleurs modèles se regroupent au-dessus de 88 %, ce qui réduit la capacité du test à les départager finement . Dit autrement : un très bon score MMLU ne suffit plus à trancher entre modèles de frontière.
Sur les modèles pour lesquels BenchLM fournit des pages comparables, Claude Opus 4.7 arrive devant. BenchLM le classe 2e sur 110 modèles dans son classement provisoire, avec un score global de 97/100, et 2e sur 14 dans son classement vérifié .
GPT-5.5 est également très haut, mais derrière Claude sur cette source : BenchLM le place 5e sur 112 dans le classement provisoire avec 89/100, et 2e sur 16 dans le classement vérifié . Kimi 2.6, de son côté, atteint 85/100 et la 12e place sur 115 dans le classement provisoire, avec 27 scores de benchmarks publiés selon BenchLM
.
Cela ne donne pas un classement universel. Les échantillons BenchLM cités ne comptent pas exactement le même nombre de modèles, et les données disponibles ici ne fournissent pas un score BenchLM directement équivalent pour DeepSeek V4 .
Pour l’ingénierie logicielle, Claude Opus 4.7 dispose du signal public le plus clair dans ce jeu de sources. MindStudio indique qu’il atteint 82,4 % sur SWE-bench Verified, soit environ 11 points de plus qu’Opus 4.6 . Le même document mentionne aussi 82,7 % sur FinanceBench et une progression de 9,5 points sur MathVista, utile pour le raisonnement mathématique visuel et l’interprétation de graphiques structurés
.
Pour GPT-5.5, les chiffres officiellement mis en avant dans les sources fournies ne portent pas d’abord sur SWE-bench, mais sur GDPval, OSWorld-Verified et Tau2-bench Telecom . Pour Kimi K2.6, GMI Cloud affirme une position de tête sur SWE-Bench Pro, mais l’extrait fourni ne permet pas de confirmer un score exact ni une comparaison à conditions identiques entre les quatre modèles
. DeepSeek V4, dans ce corpus, est surtout documenté par des scores de raisonnement et de mathématiques plutôt que par un indicateur de code directement comparable
.
Sur les tâches de type agent — produire un livrable, manipuler un environnement logiciel, suivre un workflow — GPT-5.5 bénéficie de chiffres officiels précis. OpenAI indique que GPT-5.5 atteint 84,9 % sur GDPval, un benchmark qui teste la capacité d’agents à produire du travail de connaissance bien spécifié dans 44 professions . OpenAI annonce aussi 78,7 % sur OSWorld-Verified, qui mesure l’utilisation autonome de vrais environnements informatiques, et 98,0 % sur Tau2-bench Telecom, consacré à des workflows complexes de service client, sans réglage spécifique du prompt
.
Claude Opus 4.7 a lui aussi des données agentiques, mais sur une base différente. Anthropic indique que son modèle obtient 0,715 sur son benchmark interne de research-agent, à égalité au meilleur score global sur six modules, et 0,813 sur le module General Finance contre 0,767 pour Opus 4.6 .
La nuance est importante : GDPval, OSWorld-Verified et Tau2-bench ne mesurent pas la même chose que le benchmark interne research-agent d’Anthropic . Le 84,9 % de GPT-5.5 et le 0,715 de Claude Opus 4.7 ne doivent donc pas être lus comme deux notes sur 100 comparables.
Les chiffres les plus précis pour DeepSeek portent sur la configuration V4-Pro-Max. DataCamp rapporte que, selon des résultats internes DeepSeek, DeepSeek V4-Pro-Max obtient 87,5 % sur MMLU-Pro, 90,1 % sur GPQA Diamond et 92,6 % sur GSM8K . Ce sont des repères utiles pour le raisonnement, mais leur statut de résultats internes impose de les lire avec prudence
.
La page Hugging Face de DeepSeek-V4-Pro contient une table où DeepSeek V4-Pro-Max et Kimi K2.6 Thinking apparaissent côte à côte sur plusieurs tests de connaissances et de raisonnement .
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Avantage dans cette table |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90,1 | 90,5 | Kimi K2.6 Thinking |
| HLE | 37,7 | 36,4 | DeepSeek V4-Pro-Max |
Dans cette table, DeepSeek V4-Pro-Max devance Kimi K2.6 Thinking sur MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA et HLE, tandis que Kimi K2.6 Thinking est légèrement devant sur GPQA Diamond . Mais cette comparaison ne tranche pas le match complet entre les quatre modèles : la même table compare aussi d’autres références, comme Opus-4.6 Max et GPT-5.4 xHigh, et non Claude Opus 4.7 ni GPT-5.5
.
Les classements de performance pure ne suffisent pas toujours. En production, le coût par test, la latence et les contraintes de déploiement peuvent peser aussi lourd que quelques points de précision.
Vals AI affiche pour GPT-5.5 une Accuracy de 67,76 % ± 1,79, une latence de 409,09 s et une fenêtre de contexte de 1M . Pour Kimi K2.6, Vals AI affiche une Accuracy de 63,94 % ± 1,97, une latence de 373,57 s et un coût de 0,21 $ par test
. Sur ces deux lignes Vals, GPT-5.5 a donc la valeur d’accuracy la plus élevée, tandis que Kimi K2.6 présente une latence plus basse et un coût/test explicitement documenté
.
Kimi K2.6 se distingue aussi par son positionnement en poids ouverts. Artificial Analysis décrit Kimi K2.6 de Moonshot comme un leading open weights model, avec un Artificial Analysis Intelligence Index de 54 et une 4e place au classement global . Là encore, il ne faut pas additionner les scores comme s’ils provenaient d’une même échelle : l’index Artificial Analysis, l’Accuracy Vals et le 85/100 de BenchLM mesurent des choses différentes
.
Les données publiques disponibles ne donnent pas un podium fiable de 1 à 4. Elles dessinent plutôt quatre profils.
Claude Opus 4.7 ressort fortement sur le code et sur BenchLM. GPT-5.5 est particulièrement bien documenté sur les tâches agentiques, le travail de connaissance et l’usage d’environnements informatiques. DeepSeek V4-Pro-Max apporte des scores marquants en raisonnement et mathématiques, mais souvent à partir de résultats internes. Kimi K2.6 combine des performances solides, un positionnement en poids ouverts et des indicateurs opérationnels utiles sur coût et latence .
Le meilleur réflexe n’est donc pas de chercher le champion abstrait. C’est de construire un mini-benchmark interne : vos tickets de code, vos documents financiers, vos workflows de navigateur, vos demandes de support, vos contraintes de latence et de budget. Les benchmarks publics donnent la carte ; vos cas d’usage donnent l’itinéraire .
Comments
0 comments