Sur un ensemble plus large de tests, GPT-5.5 conserve des bastions. Sur Terminal-Bench 2.1, une évaluation de codage en ligne de commande, GPT-5.5 domine avec 78,2 %, devant les 74,6 % d'Opus 4.8 et les 70,3 % de Gemini 3.1 Pro .
Pour les tâches de travail intellectuel à forte valeur économique, Opus 4.8 réalise un score de 1890 sur l'évaluation GDPval-AA, surpassant GPT-5.5 (1769) et Gemini (1314) . Sur l'ensemble des catégories mesurées, Anthropic revendique une supériorité dans plusieurs domaines clés, sans pour autant prétendre à une victoire absolue
.
Délaissant la seule course à la puissance brute, Anthropic a lourdement insisté sur la fiabilité du modèle. L'entreprise affirme qu'Opus 4.8 est environ quatre fois moins susceptible qu'Opus 4.7 de laisser passer sans commentaire des failles dans le code qu'il génère .
Les premiers retours de testeurs soulignent un modèle bien plus enclin à signaler ses doutes et moins prompt à avancer des affirmations non étayées lors de workflows complexes . Anthropic a explicitement érigé « l'honnêteté » en argument de vente, jugeant le modèle moins susceptible de présenter comme factuelles des informations insuffisamment sourcées
.
Au-delà du modèle de base, Anthropic déploie de nouvelles fonctionnalités pensées pour les utilisateurs avertis et les développeurs .
Workflows dynamiques : Disponible en avant-première dans Claude Code, cette fonctionnalité permet au modèle de planifier une mission, de l'orchestrer en répartissant des centaines de sous-agents en parallèle, puis de vérifier les résultats avant de les rapporter. Elle est conçue pour des migrations de code à grande échelle, l'audit ou la chasse aux bugs .
Contrôle de l'engagement / de l'effort : Les utilisateurs peuvent désormais dicter la profondeur de raisonnement du modèle. Le paramètre « effort », accessible sur claude.ai et dans Claude Code, permet un compromis entre intelligence, coûts de tokens et rapidité. La documentation recommande d'utiliser le niveau xhigh pour les tâches de codage et agentiques les plus ardues, et un minimum de high pour les autres usages sensibles .
La mise en cache est facturée 6,25 $ par million de tokens pour les écritures de 5 minutes, 10 $ pour une heure, et 0,50 $ pour les lectures et rafraîchissements .
Claude Opus 4.8 n'est pas une simple mise à jour de puissance brute : c'est une mise à niveau ciblée sur les développeurs et les entreprises. Le récit commercial se recentre sur la fiabilité des agents, la gestion explicite des incertitudes et un contrôle granulaire du rapport coûts-performances par le réglage du niveau d'effort. Côté tarifs, le conservatisme est de mise avec une stabilité des prix standards, tandis que la baisse spectaculaire du mode rapide démocratise l'inférence ultra-rapide pour les applications les plus exigeantes en latence.
Comments
0 comments