En code, la bonne question n’est pas seulement quel modèle écrit le meilleur extrait. Il faut distinguer les tâches où le modèle pilote un environnement — commandes shell, appels d’outils, tests, corrections successives — et celles où il doit résoudre un problème dans un dépôt existant.
Sur Terminal-Bench 2.0, GPT-5.5 est donné à 82,7 %, devant Claude Opus 4.7 à 69,4 %. VentureBeat a aussi présenté l’avance de GPT-5.5 dans le cadre précis de ce benchmark, qui évalue la capacité à naviguer et accomplir des tâches dans un terminal.
Pour des automatisations agentiques, c’est donc le premier candidat naturel.
Mais la hiérarchie s’inverse sur SWE-Bench Pro. Yahoo Tech rapporte 64,3 % pour Claude Opus 4.7 et 58,6 % pour GPT-5.5, en précisant que ce benchmark note la résolution d’issues GitHub réelles. Pour une équipe qui veut corriger des bugs, faire passer une suite de tests ou moderniser un codebase, Claude Opus 4.7 doit donc absolument entrer dans le banc d’essai.
Il faut toutefois résister à la tentation de lire ces scores comme un classement définitif. Yahoo Tech rapporte qu’OpenAI a évoqué une possible mémorisation d’une partie des problèmes dans le score SWE-Bench Pro de Claude, et RDWorld ajoute aussi une note de prudence sur ce point. À l’inverse, le tableau de RDWorld signale des harnais différents pour Terminal-Bench 2.0.
En clair : avant de trancher, testez les deux modèles sur votre propre dépôt, avec les mêmes prompts, les mêmes tests et les mêmes critères d’acceptation.
Pour une équipe produit, une agence ou un développeur qui cherche à générer vite une landing page, un tableau de bord SaaS ou un écran d’application, les benchmarks de code ne suffisent pas. L’enjeu n’est pas seulement que le composant compile : il faut une hiérarchie lisible, des espacements cohérents, une typographie tenue et des choix de composants qui ne se ressemblent pas tous.
Sur ce terrain, Appwrite estime que Claude Opus 4.7 reste plus fort pour les travaux UI-first. Son évaluation souligne des mises en page avec une hiérarchie plus claire, une typographie plus serrée et moins de grilles de cartes répétitives dès la première génération.
Cette observation n’est pas un benchmark quantitatif comparable à SWE-Bench Pro. Elle reste néanmoins utile pour les équipes qui jugent un modèle sur la qualité du premier brouillon visuel. Si vous partez d’une page blanche, Claude Opus 4.7 est le meilleur premier essai. Avec GPT-5.5, il paraît plus prudent de préciser fortement la structure de la page, le rythme visuel, les composants attendus et les contraintes typographiques.
Les évaluations de raisonnement ne donnent pas une victoire nette à l’un des deux modèles. Sur GPQA Diamond, GPT-5.5 est indiqué à 93,6 % et Claude Opus 4.7 à 94,2 %, tandis que RDWorld qualifie cette mesure de saturée. Autrement dit, l’écart est trop faible pour en faire un argument décisif dans un choix produit.
Sur HLE sans outils, Claude Opus 4.7 est mieux placé, avec 46,9 % contre 41,4 % pour GPT-5.5. En revanche, sur BrowseComp, GPT-5.5 est donné à 84,4 %, contre 79,3 % pour Claude Opus 4.7.
Là encore, prudence : la même ligne de tableau porte une alerte contamination flagged, ce qui empêche d’en tirer une conclusion absolue sur la recherche web en conditions réelles.
Les tarifs sont annoncés en dollars et au million de tokens, ces unités de texte que les API facturent en entrée et en sortie. OpenAI indique que GPT-5.5 sera bientôt disponible dans les API Responses et Chat Completions à 5 $ par million de tokens en entrée et 30 $ en sortie, avec une fenêtre de contexte de 1 million de tokens. OpenAI précise aussi que Batch et Flex sont proposés à la moitié du tarif standard, tandis que le traitement Priority est à 2,5 fois le tarif standard.
Anthropic annonce Claude Opus 4.7 à partir de 5 $ par million de tokens en entrée et 25 $ en sortie. L’entreprise indique également que le prompt caching peut permettre jusqu’à 90 % d’économies et que le traitement par lots peut réduire les coûts de 50 %.
À tarif standard, l’entrée est donc similaire, mais la sortie coûte 5 $ de moins par million de tokens chez Claude Opus 4.7. Pour des tâches qui génèrent beaucoup de texte — longs fichiers de code, documentation, explications de refactorisation, rapports — Claude peut être plus intéressant financièrement, à qualité égale.
Le coût réel dépendra toutefois de la longueur des réponses, du nombre de relances, du taux de cache et de l’usage ou non du batch. OpenAI affirme que GPT-5.5 est plus intelligent et plus efficace en tokens que GPT-5.4, mais cela ne constitue pas une comparaison directe de coût avec Claude Opus 4.7.
OpenAI a annoncé GPT-5.5 dans Codex et ChatGPT, et prévoit son arrivée pour les développeurs dans les API Responses et Chat Completions. Si votre équipe travaille déjà dans ChatGPT, Codex ou une pile OpenAI, l’expérimentation peut donc être plus simple à lancer.
Côté Anthropic, Claude Opus 4.7 est accessible via l’API Claude avec l’identifiant claude-opus-4-7. Mais Anthropic précise aussi qu’Opus 4.7 introduit des changements incompatibles par rapport à Opus 4.6, ce qui impose une vérification de migration pour les intégrations existantes.
Dernier point souvent sous-estimé : le modèle brut n’est pas toute l’expérience. Dans un postmortem sur Claude Code, Anthropic indique qu’une modification du prompt système avait entraîné une baisse de 3 % sur une évaluation pour Opus 4.6 comme pour Opus 4.7, avant d’être annulée dans la version du 20 avril. Même modèle, mais wrapper, prompt système ou chaîne d’outils différents : le résultat peut varier sensiblement.
Dire que GPT-5.5 écrase Claude Opus 4.7 serait aller trop vite. Les données publiques montrent plutôt deux modèles très compétitifs, avec des zones de force différentes. GPT-5.5 envoie un signal fort sur Terminal-Bench 2.0 et les workflows terminal/outils. Claude Opus 4.7 ressort mieux sur SWE-Bench Pro, les premières générations UI et le prix standard des tokens de sortie.
La stratégie la plus robuste n’est donc pas de choisir un seul modèle pour tout. Pour l’automatisation terminal et les workflows déjà ancrés dans l’écosystème OpenAI, testez GPT-5.5 en premier. Pour les corrections dans des dépôts réels, les maquettes UI et les charges à forte sortie texte, commencez par Claude Opus 4.7, puis confirmez sur vos propres tests.
Comments
0 comments