L'Opus 4.8 d'Anthropic maintient également la tarification de l'Opus 4.7, sans hausse malgré des gains de performance significatifs . GPT-5.5, en revanche, a doublé le prix de l'API de son prédécesseur GPT-5.4, même si OpenAI argue que l'amélioration de l'efficacité des tokens ramène le coût effectif à environ 20 % de plus
.
Les trois modèles prennent en charge la mise en cache des prompts avec environ 90 % d'économie sur les tokens d'entrée et proposent un traitement par lots avec 50 % de remise .
GPT-5.5 dispose aussi d'un niveau Pro à 30 $/180 $ par million de tokens, destiné aux charges de travail de niveau recherche . Claude Opus n'a pas d'équivalent.
Les comparaisons directes de modèles sont compliquées par des versions de benchmarks et des protocoles de test différents. Là où des scores sont disponibles sur le même test, Opus 4.8 domine GPT-5.5 dans les domaines qui intéressent le plus les développeurs.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (codage) | 88,6 % | 87,6 % | Non comparable directement |
| SWE-bench Pro (codage agentique) | 69,2 % | 64,3 % | 58,6 % |
| Terminal-Bench 2.1 | 74,6 % | — | — |
| Terminal-Bench 2.0 | — | 69,4 % | 82,7 % |
| Raisonnement multidisciplinaire (outils) | 57,9 % | 54,7 % | Non comparable directement |
| Raisonnement multidisciplinaire (sans outils) | ~62,1 % | — | — |
| GPQA Diamond (sciences de niveau master) | 93,6 % | 94,2 % | — |
| MMLU (connaissances générales) | — | 91,3 % | — |
| AIME 2024 (mathématiques de compétition) | — | 99,8 % | — |
| CursorBench | Le plus élevé | Référence | — |
| GDPval-AA (travail intellectuel) | 1890 | 1753 | 1769 |
| Super-Agent (bout en bout) | 100 % | — | Pas 100 % |
| Usage d'ordinateur agentique | 83,4 % | 82,8 % | 78,7 % |
SWE-bench Pro est le benchmark le plus cité pour les tâches d'ingénierie logicielle en conditions réelles, et Opus 4.8 y obtient 69,2 % contre 58,6 % pour GPT-5.5, soit une avance de 10,6 points de pourcentage . Opus 4.7 était déjà en tête avec 64,3 %, et Opus 4.8 creuse l'écart. L'annonce d'Anthropic souligne une réalisation plus rapide des tâches et 4 fois moins de bugs de code par rapport aux modèles précédents
.
Ce benchmark exige une lecture attentive. GPT-5.5 affiche 82,7 % sur Terminal-Bench 2.0 , tandis que les 74,6 % d'Opus 4.8 ont été mesurés sur Terminal-Bench 2.1, une version plus récente
. Les deux ne sont pas directement comparables. De plus, l'affirmation des 82,7 % d'OpenAI a été scrutée à la loupe ; le classement du propriétaire du benchmark affichait 82,0 % ± 2,2 le même jour
. Opus 4.7 a obtenu 69,4 % sur Terminal-Bench 2.0
, et des tests indépendants utilisant différents harnais ont parfois trouvé que GPT-5.5 sous-performait par rapport à GPT-5.4 sur ce benchmark
.
Sur GDPval-AA, une évaluation du travail intellectuel, Opus 4.8 atteint un score Elo de 1890 contre 1769 pour GPT-5.5, soit un avantage d'environ 7 % . Opus 4.8 est aussi le premier modèle à atteindre un taux de complétion de 100 % sur le benchmark Super-Agent d'Anthropic, signifiant qu'il a réalisé chaque tâche agentique bout en bout de la suite de tests
. GPT-5.5 n'a pas atteint les 100 %.
Sur l'usage agentique d'un ordinateur (OSWorld-Verified), les scores sont plus groupés : Opus 4.8 à 83,4 %, GPT-5.5 à 78,7 %, et Opus 4.7 à 82,8 % . Il s'agit d'améliorations mesurées en points uniques, pas de bonds générationnels.
La couverture de benchmarks de GPT-5.5 est plus mince sur les étalons partagés qu'Anthropic a publiés avec Opus 4.8, en partie parce qu'OpenAI se concentre sur d'autres indicateurs. Sur GPQA Diamond (raisonnement scientifique de niveau master), Opus 4.7 a atteint 94,2 % , alors que des comparaisons précédentes montraient que GPT-5.4 avait une légère avance sur Opus 4.7 pour le raisonnement mathématique pur et certains tests de mémorisation
. Aucune comparaison directe GPQA entre Opus 4.8 et GPT-5.5 n'est encore disponible, bien qu'Opus 4.8 soit signalé à 93,6 %
.
OpenAI affirme aussi que GPT-5.5 utilise environ 40 % de tokens de sortie en moins par tâche de codage que GPT-5.4, ce qui pourrait compenser partiellement son prix par token plus élevé sur certaines charges de travail .
| Spécification | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Fenêtre de contexte | 1M tokens | 1M tokens | 1M tokens |
| Mode rapide | 2,5× vitesse (10/50$) | 2,5× vitesse (10/50$) | N/A |
| Date de sortie | 28 mai 2026 | 16 avril 2026 | 23 avril 2026 |
| Remise par lots | 50 % | 50 % | 50 % (Flex) |
| Mise en cache de prompt | Oui (jusqu'à 90 % d'éco.) | Oui (jusqu'à 90 % d'éco.) | Oui (90 % d'éco.) |
Les trois modèles convergent sur une fenêtre de contexte d'un million de tokens, bien qu'Anthropic documente la sortie maximale d'Opus 4.8 à 128K tokens par requête . La sortie maximale de GPT-5.5 est listée à 32K tokens
.
Le mode rapide de Claude est optionnel et fonctionne à environ 2,5 fois la vitesse standard. Anthropic indique que ce mode pour Opus 4.8 est trois fois moins cher que l'inférence rapide des générations Opus précédentes . GPT-5.5 n'offre pas de niveau de vitesse premium équivalent.
Les benchmarks indépendants doivent être lus en gardant leurs limites à l'esprit :
Optez pour Claude Opus 4.8 si : le codage agentique, les tâches d'utilisation d'un ordinateur, le travail intellectuel ou les opérations à contexte long dominent votre charge de travail. Il est en tête sur chaque benchmark partagé où les comparaisons sont possibles, et son prix est inchangé par rapport à Opus 4.7.
Optez pour GPT-5.5 si : vous êtes profondément ancré dans l'écosystème d'OpenAI, accordez la priorité au raisonnement mathématique pur, ou espérez que les gains d'efficacité des tokens compensent le prix par token plus élevé sur vos schémas de prompts spécifiques.
Restez sur Opus 4.7 si : vous voulez un codage agentique de pointe (64,3 % sur SWE-bench Pro reste bien devant GPT-5.5) et n'avez pas besoin des gains spécifiques apportés par Opus 4.8. Mais étant donné le prix identical, il y a peu de raisons de ne pas passer à la version supérieure.
Pour les développeurs qui font tourner des agents à forte production de tokens ou des analyses de longs documents, le prix de sortie 17 % moins cher et les tarifs fixes pour le contexte long de Claude Opus font une différence concrète sur les factures mensuelles d'API.
Comments
0 comments