Le tableau ci-dessous ne rapproche Claude Opus 4.7 et GPT-5.5 que lorsqu’ils sont évalués sur le même benchmark. GPT-5.5 Pro n’est mentionné que lorsque la source le présente comme une variante séparée .
OpenAI utilise SWE-Bench Pro Public dans son tableau comparant GPT-5.5 et Claude Opus 4.7 . Ce n’est pas la même chose que SWE-bench Verified. BenchLM décrit SWE-bench Verified comme un sous-ensemble vérifié par des humains, conçu pour tester la capacité d’un modèle à résoudre de vrais tickets GitHub issus de dépôts Python populaires comme Django, Flask ou scikit-learn
.
Conséquence pratique : le score de 64,3 % de Claude Opus 4.7 sur SWE-Bench Pro Public ne doit pas être comparé directement à un score Claude sur SWE-bench Verified provenant d’un autre classement . Avant de tirer une conclusion, il faut vérifier le nom exact du benchmark, le harnais d’évaluation, la date du test et la configuration du modèle.
Vellum place Claude Opus 4.7 à 94,2 % et GPT-5.5 à 93,6 % sur GPQA Diamond . The Next Web rapporte aussi des scores très proches sur ce benchmark, avec Claude Opus 4.7 à 94,2 %, GPT-5.4 Pro à 94,4 % et Gemini 3.1 Pro à 94,3 %, en indiquant que les écarts se situent dans le bruit statistique
.
GPQA reste utile comme signal de raisonnement général. Mais pour choisir un modèle en production, il devient trop peu discriminant s’il est utilisé seul.
Sur SWE-bench Verified, les scores publiés pour Claude Opus 4.7 varient selon les sources. BenchLM indique 87,6 % pour Claude Opus 4.7 Adaptive au 24 avril 2026 . LLM Stats mentionne aussi 87,6 %
. En revanche, LM Council affiche Claude Opus 4.7 max à 83,5 % ± 1,7
, tandis que MindStudio cite 82,4 %
.
Ces différences ne prouvent pas à elles seules qu’un classement est faux. Elles peuvent venir de la configuration du modèle, du harnais d’évaluation, de la date de test, du nombre de tentatives autorisées ou du mode de raisonnement utilisé. Pour une équipe d’ingénierie, les benchmarks publics servent surtout à établir une shortlist ; ils ne remplacent pas des tests sur ses propres dépôts, outils et workflows.
Le signal le plus favorable à Claude Opus 4.7 se trouve dans la réparation de code et les workflows agentiques qui manipulent plusieurs outils. Dans le tableau d’OpenAI, Claude devance GPT-5.5 sur SWE-Bench Pro Public, 64,3 % contre 58,6 %, ainsi que sur FinanceAgent v1.1, 64,4 % contre 60,0 % . Vellum rapporte aussi un avantage de Claude sur MCP Atlas, 79,1 % contre 75,3 % pour GPT-5.5
.
Anthropic met également en avant des évaluations de partenaires liées aux agents. Dans la note de lancement de Claude Opus 4.7, l’entreprise cite Hebbia, qui dit observer une hausse à deux chiffres de la précision des appels d’outils et de la planification dans ses agents orchestrateurs. Anthropic cite aussi Rakuten-SWE-Bench, où Opus 4.7 résoudrait trois fois plus de tâches de production qu’Opus 4.6, avec des gains à deux chiffres en qualité de code et de tests .
Lecture pratique : si votre priorité est la réparation autonome de dépôts, l’orchestration MCP ou un long workflow multi-outils, Claude Opus 4.7 mérite d’être testé très tôt. Mais ces signaux publics doivent encore être validés avec vos suites de tests, vos règles d’accès et vos schémas d’outils.
L’avantage le plus net de GPT-5.5 apparaît sur Terminal-Bench 2.0. OpenAI rapporte 82,7 % pour GPT-5.5, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro . Dans le même tableau, GPT-5.5 est aussi devant Claude sur GDPval, avec 84,9 % contre 80,3 %, et sur OfficeQA Pro, avec 54,1 % contre 43,6 %
.
Vellum ajoute des éléments sur l’usage ordinateur, la recherche et le raisonnement. GPT-5.5 est légèrement devant Claude sur OSWorld-Verified, 78,7 % contre 78,0 % ; plus haut sur BrowseComp, 84,4 % contre 79,3 % ; et devant sur FrontierMath T1–3, 51,7 % contre 43,8 % . Pour BrowseComp, Vellum indique aussi 90,1 % pour GPT-5.5 Pro
.
En code, le tableau est donc plus nuancé qu’un simple classement général. GPT-5.5 est très fort sur les tâches de terminal, mais reste derrière Claude Opus 4.7 sur SWE-Bench Pro Public dans le tableau d’OpenAI . La System Card d’OpenAI décrit par ailleurs CoT-Control, une suite de plus de 13 000 tâches dérivées de benchmarks comme GPQA, MMLU-Pro, HLE, BFCL et SWE-Bench Verified pour mesurer la contrôlabilité de GPT-5.5
. Cette source ne fournit toutefois pas de comparaison directe avec DeepSeek V4 ou Kimi K2.6
.
Pour DeepSeek V4, les sources disponibles ne donnent pas de score benchmark direct. La donnée la plus proche concerne DeepSeek V3.2 : MangoMind le place dans ses recommandations coding d’avril 2026 avec 89,2 % sur SWE-bench, derrière Claude Opus 4.6 à 93,2 % et GPT-5.4 Pro à 91,1 % . Ce score de DeepSeek V3.2 ne permet pas de déduire la performance de DeepSeek V4.
Pour Kimi K2.6, la situation est la même. Stanford HAI mentionne KimiK2.5 dans un groupe de modèles entre 70 % et 76 % sur SWE-bench Verified en février 2026 . Siliconflow liste Kimi K2 Thinking avec 84,5 sur GPQA et 71,3 sur SWE Bench
. Ces deux entrées donnent un contexte sur l’écosystème Kimi, mais elles ne prouvent rien directement sur Kimi K2.6.
Si l’on se limite aux preuves face-à-face disponibles, GPT-5.5 est le candidat le plus fort pour les agents de terminal/CLI, la navigation et recherche, les tâches bureautiques/professionnelles et certains benchmarks mathématiques . Claude Opus 4.7 est le candidat le plus fort sur SWE-Bench Pro Public, MCP Atlas et FinanceAgent v1.1
.
DeepSeek V4 et Kimi K2.6 ne peuvent pas encore être classés équitablement contre ces deux modèles à partir de ce corpus. Les chiffres disponibles concernent d’autres versions — DeepSeek V3.2, KimiK2.5 et Kimi K2 Thinking — si bien qu’une affirmation selon laquelle DeepSeek V4 ou Kimi K2.6 battraient Claude Opus 4.7 ou GPT-5.5 n’est pas étayée ici par des benchmarks directs .
Comments
0 comments