| Élevée-moyenne |
| GPT-5.5 | Très fort en raisonnement général. O-Mega rapporte 92,4 % sur MMLU, 93,6 % sur GPQA Diamond, 85,0 % sur ARC-AGI-2 et 95,0 % sur ARC-AGI-1 | Moyenne |
| DeepSeek V4 / V4 Pro | Intéressant pour le coding et l’expérimentation technique, mais les sources mélangent DeepSeek V4, V4 Pro et V4 Pro High | Moyenne-faible |
| Kimi K2.6 | Quelques signaux existent — LLM Stats le liste à 0,91 sur GPQA et WhatLLM l’inclut dans son top 10 Quality Index —, mais la couverture multi-benchmark reste trop limitée | Faible |
En une phrase : Claude Opus 4.7 est le choix le plus facile à défendre pour une présentation axée coding et agents ; GPT-5.5 est le rival le plus crédible en raisonnement ; DeepSeek V4/V4 Pro doit être testé en interne avant toute proclamation ; Kimi K2.6 doit rester en catégorie données insuffisantes.
SWE-bench mesure la capacité à résoudre des tâches réelles d’ingénierie logicielle ; Vals AI le décrit comme un benchmark orienté résolution de tâches de software engineering en production . SWE-bench Pro doit être traité à part : l’article académique le présente comme une variante nettement plus difficile, conçue pour des tâches logicielles de long horizon
. Mélanger SWE-bench, SWE-bench Verified et SWE-bench Pro comme s’il s’agissait d’un seul test revient donc à comparer des épreuves différentes.
GPQA Diamond est utile pour le raisonnement scientifique, mais il sépare de moins en moins bien les modèles de pointe. TNW souligne que, sur GPQA Diamond, des modèles comme Opus 4.7, GPT-5.4 Pro et Gemini 3.1 Pro sont si proches que les écarts relèvent du bruit de mesure . MMLU demande encore plus de prudence : Nanonets indique qu’en 2026 les meilleurs modèles dépassent déjà 88 %, ce qui réduit fortement le pouvoir discriminant du benchmark
.
La provenance des chiffres compte tout autant. Une page officielle d’un laboratoire, un leaderboard indépendant, un agrégateur, un billet de blog technique et une discussion communautaire ne portent pas le même poids. Même BenchLM applique ce type de réserve : son profil Claude Opus 4.7 est suivi, mais exclu du leaderboard public faute de couverture publique non générée suffisante pour le classer en toute sécurité .
Claude Opus 4.7 est le modèle le mieux soutenu dans cette comparaison, surtout pour le développement logiciel et les tâches agentiques. La source la plus directe vient d’Anthropic : l’entreprise indique qu’Opus 4.7 a égalé le meilleur score global sur son benchmark interne de research-agent avec 0,715, et qu’il a offert la performance long-context la plus constante parmi les modèles testés . Comme il s’agit d’une évaluation interne, elle ne remplace pas un benchmark indépendant ; elle éclaire surtout l’orientation du modèle vers le travail multi-étapes.
Le signal externe le plus clair se trouve sur SWE-bench. Vals AI classe Claude Opus 4.7 premier avec 82,00 % sur une page mise à jour le 24 avril 2026 . Vellum rapporte de son côté 87,6 % sur SWE-bench Verified et 64,3 % sur SWE-bench Pro
. LMCouncil liste aussi Claude Opus 4.7 à 83,5 % ± 1,7 sur SWE-bench Verified
.
La conclusion rigoureuse n’est pas de choisir un seul chiffre et d’ignorer les autres. Elle est de dire que Claude apparaît dans le haut du tableau — souvent en tête — sur plusieurs sources liées au software engineering, tout en gardant à l’esprit que les variantes de SWE-bench et les méthodologies peuvent différer .
Sur le raisonnement scientifique, Claude Opus 4.7 est également très haut, avec 94,2 % sur GPQA Diamond selon O-Mega, Vellum et TNW . Mais ce résultat ne suffit pas à déclarer un vainqueur global : TNW rappelle que GPQA Diamond est très comprimé parmi les modèles de pointe
.
GPT-5.5 ressort très fort dans les chiffres de raisonnement récupérés. O-Mega rapporte 92,4 % sur MMLU, 93,6 % sur GPQA Diamond, 85,0 % sur ARC-AGI-2 et 95,0 % sur ARC-AGI-1 . Vellum le liste aussi à 93,6 % sur GPQA Diamond, juste derrière Claude Opus 4.7 dans ce tableau précis
. BenchLM le place dans le haut du marché, avec 89/100 sur son leaderboard provisoire et une deuxième place sur 16 dans son leaderboard vérifié
.
La réserve principale est la traçabilité. Dans les sources utilisées ici, GPT-5.5 apparaît surtout via des articles, agrégateurs et pages de benchmarks. Appwrite écrit qu’OpenAI a livré GPT-5.5 le 23 avril 2026 dans un article publié le 24 avril, tandis que Vals liste openai/gpt-5.5 avec une date de sortie au 23 avril 2026, une fenêtre de contexte de 1 million de tokens et un Vals Index de 67,76 % ± 1,79 . Ces sources sont utiles, mais elles ne remplacent pas une benchmark card officielle et complète.
Pour une présentation à un comité technique, GPT-5.5 doit donc être présenté comme un concurrent de premier plan en raisonnement général, notamment grâce à GPQA et ARC-AGI. En revanche, il serait excessif d’en faire le gagnant global si le critère principal est l’homogénéité des preuves publiques entre tous les modèles .
DeepSeek est le cas le plus délicat à lire. Les sources disponibles alternent entre DeepSeek V4, DeepSeek V4 Pro et DeepSeek V4 Pro High. Il ne faut donc pas transférer automatiquement un score d’une variante à l’autre .
Sur Hugging Face, une discussion communautaire pour DeepSeek-V4-Pro ajoute des résultats d’évaluation sur GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified et Terminal-Bench 2.0 . BenchLM rapporte pour DeepSeek V4 Pro High 83,8/100 en Agentic, 88,8/100 en Coding et 72,1/100 en Knowledge
. NxCode affirme que DeepSeek V4 atteint 81 % sur SWE-bench et 97 % sur Needle-in-a-Haystack à 1 million de tokens, tout en conditionnant la portée du 97 % à une validation indépendante
.
Redreamality apporte un autre signal favorable pour le coding pur : LiveCodeBench 93,5 et Codeforces 3206 pour DeepSeek V4 . La même source nuance toutefois le tableau : pour les tâches agentiques de long horizon comme SWE-bench Pro et Terminal-Bench 2.0, les modèles fermés de pointe garderaient l’avantage
.
La lecture pratique est simple : DeepSeek V4/V4 Pro mérite une évaluation interne, surtout si l’équipe veut tester une alternative technique sur ses propres tâches. Mais les sources actuelles ne donnent pas le même niveau de certitude publique que pour Claude sur SWE-bench et sur le benchmark interne communiqué par Anthropic .
Kimi K2.6 ne doit pas être écarté de la veille, mais il ne faut pas non plus lui donner une couverture qu’il n’a pas. LLM Stats le liste à 0,91 sur GPQA, et WhatLLM l’inclut dans son top 10 de modèles par Quality Index . Ces signaux montrent une présence dans des agrégateurs, pas une base suffisante pour une comparaison complète avec Claude Opus 4.7, GPT-5.5 et DeepSeek V4/V4 Pro.
Il faut aussi éviter une substitution silencieuse par Kimi K2.5. Simon Willison mentionne en février 2026 un résultat de Kimi K2.5 sur SWE-bench Verified, mais ce score concerne une autre version du modèle . Pour rester rigoureux, Kimi K2.6 doit donc figurer comme modèle à données insuffisantes ou en attente de validation multi-benchmark.
Pour une présentation exécutive, le plus solide est de séparer deux dimensions : la performance affichée et la qualité de la preuve. Une première slide peut montrer le ranking par cas d’usage, une deuxième les chiffres, une troisième les limites méthodologiques.
Trois avertissements doivent apparaître clairement. D’abord, ne pas confondre SWE-bench, SWE-bench Verified et SWE-bench Pro : SWE-bench Pro vise des tâches de software engineering plus longues et plus difficiles . Ensuite, ne pas surpondérer MMLU, car les meilleurs modèles y sont déjà trop regroupés au-dessus de 88 %
. Enfin, étiqueter chaque chiffre par type de source : officiel, leaderboard, agrégateur, discussion communautaire ou claim technique.
Si l’objectif est de choisir un modèle à défendre devant une équipe technique, Claude Opus 4.7 doit arriver en tête pour le coding et les agents : il combine une source officielle, une première place Vals AI sur SWE-bench et de bons résultats tiers sur les variantes SWE-bench . GPT-5.5 doit être présenté comme un concurrent de tout premier plan en raisonnement, mais avec la réserve que les chiffres récupérés sont principalement secondaires
. DeepSeek V4/V4 Pro mérite des tests internes sérieux, pas une proclamation de leadership
. Quant à Kimi K2.6, son statut le plus honnête reste : intéressant à surveiller, insuffisant pour une comparaison complète
.
Comments
0 comments