| DeepSeek-V4-Pro-Max |
|---|
| Kimi K2.6 |
|---|
| Lecture la plus prudente |
|---|
Ce tableau explique pourquoi il serait trompeur d’annoncer un vainqueur absolu. Claude Opus 4.7 gagne plusieurs lignes de raisonnement et d’ingénierie logicielle dans la comparaison directe ; GPT-5.5 Pro gagne dès que les outils et le browsing comptent ; GPT-5.5 se distingue sur Terminal-Bench 2.0 ; Kimi K2.6, lui, apparaît surtout dans des classements séparés .
Sur GPQA Diamond, Claude Opus 4.7 atteint 94,2 %, devant GPT-5.5 à 93,6 % et DeepSeek-V4-Pro-Max à 90,1 % dans la matrice VentureBeat . L’écart avec GPT-5.5 n’est pas énorme, mais il suffit à placer Claude en tête sur cette ligne précise
.
Même constat sur Humanity’s Last Exam sans outils : Claude Opus 4.7 obtient 46,9 %, contre 43,1 % pour GPT-5.5 Pro, 41,4 % pour GPT-5.5 et 37,7 % pour DeepSeek-V4-Pro-Max . Pour des questions très difficiles sans recours à des outils externes — typiquement des tâches de raisonnement ou de connaissance où le modèle doit répondre seul — les données citées favorisent donc Claude Opus 4.7
.
Kimi K2.6 a aussi un signal intéressant sur GPQA : LLM Stats le liste à 0,91, tandis que Claude Opus 4.7 et GPT-5.5 y apparaissent tous deux à 0,94 après arrondi . Mais ce n’est pas la même matrice comparative que celle de VentureBeat sur GPQA Diamond ; il faut donc éviter d’en faire une hiérarchie définitive
.
Quand le benchmark autorise l’usage d’outils, le classement change. Sur Humanity’s Last Exam avec outils, GPT-5.5 Pro atteint 57,2 %, devant Claude Opus 4.7 à 54,7 %, GPT-5.5 à 52,2 % et DeepSeek-V4-Pro-Max à 48,2 % .
Même tendance sur BrowseComp, un test centré sur la navigation et la compréhension web : GPT-5.5 Pro monte à 90,1 %, devant GPT-5.5 à 84,4 %, DeepSeek-V4-Pro-Max à 83,4 % et Claude Opus 4.7 à 79,3 % dans la matrice VentureBeat . DocsBot liste Kimi K2.6 à 83,2 % sur BrowseComp, mais dans une page séparée de comparaison Kimi K2.6 vs DeepSeek-V4 Pro, et non dans la même matrice complète
.
En pratique, pour un flux de travail qui dépend fortement de la recherche web, de l’orchestration d’outils ou de la collecte d’informations en ligne, GPT-5.5 Pro est le choix le plus solide dans les données disponibles .
Terminal-Bench 2.0 est important pour les usages d’agents qui travaillent dans un shell plutôt que de simplement répondre dans une fenêtre de chat. Le benchmark est décrit comme mesurant la capacité à terminer de vrais workflows en ligne de commande : manipulation de fichiers, exécution de scripts, débogage et coordination d’outils .
Sur ce terrain, GPT-5.5 obtient 82,7 %, nettement devant Claude Opus 4.7 à 69,4 % et DeepSeek-V4-Pro-Max à 67,9 % dans la comparaison VentureBeat . Pour automatiser un dépôt, corriger une erreur via terminal, lancer des scripts ou piloter un workflow CLI en plusieurs étapes, c’est l’avantage le plus clair de GPT-5.5 dans les sources citées
.
SWE-Bench Pro donne un signal utile pour les tâches de génie logiciel complexes. LLM Stats le présente comme une version avancée de SWE-Bench, conçue pour évaluer des problèmes réels d’ingénierie logicielle nécessitant un raisonnement prolongé et une résolution en plusieurs étapes .
Dans la matrice VentureBeat, Claude Opus 4.7 atteint 64,3 % sur SWE-Bench Pro / SWE Pro, devant GPT-5.5 à 58,6 % et DeepSeek-V4-Pro-Max à 55,4 % . LLM Stats liste aussi Claude Opus 4.7 à 0,64, GPT-5.5 à 0,59, Kimi K2.6 à 0,59 et DeepSeek-V4-Pro-Max à 0,55 sur SWE-Bench Pro
.
Les formats de score ne sont pas présentés exactement de la même manière selon les sources, mais le signal principal reste cohérent : dans ce groupe, Claude Opus 4.7 est devant sur SWE-Bench Pro ; GPT-5.5 et Kimi K2.6 sont proches dans LLM Stats ; DeepSeek-V4-Pro-Max arrive plus bas dans les données citées .
DeepSeek-V4-Pro-Max ne mène aucune ligne dans la matrice comparative VentureBeat : 90,1 % sur GPQA Diamond, 37,7 % sur Humanity’s Last Exam sans outils, 48,2 % avec outils, 67,9 % sur Terminal-Bench 2.0, 55,4 % sur SWE-Bench Pro, 83,4 % sur BrowseComp et 73,6 % sur MCP Atlas .
Son intérêt vient surtout du coût. VentureBeat décrit DeepSeek V4 comme proche de l’état de l’art, pour un coût d’environ un sixième de celui d’Opus 4.7 et de GPT-5.5 . C’est un argument fort si l’on doit traiter de gros volumes ou bâtir un service où chaque requête compte.
Mais il y a une réserve importante. Artificial Analysis indique que DeepSeek V4 Pro Max obtient -10 sur AA-Omniscience, soit une amélioration de 11 points par rapport à V3.2 Reasoning à -21, tout en signalant des taux d’hallucination très élevés pour V4 Pro et V4 Flash, respectivement 94 % et 96 % . Il ne faut pas en déduire que DeepSeek est forcément le moins fiable de tous les modèles de ce comparatif : les sources citées ne donnent pas le même indicateur d’hallucination pour GPT-5.5, Claude Opus 4.7 et Kimi K2.6
. La conclusion raisonnable est plutôt la suivante : DeepSeek V4 mérite un essai si le coût est prioritaire, mais il faut tester rigoureusement les hallucinations sur vos propres données et procédures
.
Kimi K2.6 est le modèle le plus difficile à classer ici, parce que ses scores ne figurent pas dans la même matrice complète que GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 et DeepSeek-V4-Pro-Max .
Les signaux disponibles ne sont pas négligeables. LLM Stats liste Kimi K2.6 à 0,91 sur GPQA et à 0,59 sur SWE-Bench Pro . DocsBot lui attribue 96,4 % sur AIME 2026 en thinking mode, 27,9 % sur APEX Agents et 83,2 % sur BrowseComp ; la même page indique 83,4 % pour DeepSeek-V4 Pro sur BrowseComp
.
Le bon réflexe n’est donc ni de l’écarter, ni de le sacrer vainqueur. Kimi K2.6 doit être vu comme un candidat à tester lorsque ses benchmarks spécifiques correspondent à votre cas d’usage, surtout si vous pouvez lancer vos propres évaluations internes sur des données représentatives .
D’abord, GPT-5.5 Pro n’a pas de score dans toutes les lignes de la matrice VentureBeat. On ne peut donc pas supposer qu’il gagnerait ou perdrait sur les benchmarks où aucun chiffre n’est fourni . Ensuite, Kimi K2.6 apparaît surtout dans LLM Stats et DocsBot, pas dans la même grille complète que les autres modèles comparés ici
.
Enfin, OpenAI dispose d’une system card pour GPT-5.5. Celle-ci mentionne CoT-Control, une suite de plus de 13 000 tâches bâties à partir de benchmarks comme GPQA, MMLU-Pro, HLE, BFCL et SWE-Bench Verified . C’est utile pour comprendre comment GPT-5.5 a été évalué, mais les sources citées ne donnent pas de résultats CoT-Control équivalents pour Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 ; on ne peut donc pas l’utiliser pour les classer sur un pied d’égalité
.
En résumé : Claude Opus 4.7 est le meilleur choix des données citées pour le raisonnement difficile et SWE-Bench Pro ; GPT-5.5 Pro est le plus fort dès que les outils et la navigation web comptent ; GPT-5.5 domine le terminal ; DeepSeek V4 mérite l’attention quand le coût est déterminant ; Kimi K2.6 reste un candidat intéressant, mais avec une base de comparaison moins homogène .
Comments
0 comments