Le bond le plus significatif se situe sur SWE-Bench Pro, un banc d'essai plus difficile couvrant plusieurs langages de programmation. Avec un score de 69,2 %, Opus 4.8 creuse l'écart avec GPT-5.5 (58,6 %) et Gemini 3.1 Pro (54,2 %) et devance Opus 4.7 de 4,9 points .
Sur Terminal-Bench 2.1, qui mesure la performance en codage agentique en ligne de commande, Opus 4.8 affiche un score de 74,6 %. Même s'il reste derrière GPT-5.5 (78,2 %), il surpasse largement Opus 4.7 (66,1 %) sur cette même évaluation . Pour les tâches d'utilisation agentique d'un ordinateur (OSWorld-Verified), Opus 4.8 obtient 83,4 %, devançant là aussi GPT-5.5 (78,7 %)
.
En matière de travail de connaissance évalué par le benchmark GDPval-AA, Opus 4.8 atteint un score Elo de 1890, loin devant les 1769 de GPT-5.5 et les 1314 de Gemini . Enfin, sur l'examen pluridisciplinaire surnommé « Humanity's Last Exam », le modèle a obtenu un score de 57,9 % avec outils, le meilleur résultat jamais enregistré par un modèle grand public d'Anthropic
.
Au-delà de la puissance brute, Anthropic met en avant un aspect plus qualitatif : l'honnêteté. Selon les évaluations de l'entreprise, Opus 4.8 est à peu près quatre fois moins susceptible que son prédécesseur de laisser passer des erreurs dans son propre code sans les signaler .
Les taux de comportements « désalignés », comme la tromperie ou la coopération avec un usage malveillant, sont également en nette baisse par rapport à Opus 4.7. Ils sont désormais comparables à ceux de Claude Mythos Preview, qu'Anthropic considère comme son modèle le mieux aligné . C'est un argument de poids pour les professionnels qui intègrent l'IA dans leurs processus de développement et qui ont besoin d'un assistant capable de signaler ses angles morts plutôt que de livrer avec assurance un code défaillant.
L'une des nouveautés les plus notables de cette version est l'arrivée d'un curseur de contrôle de l'effort sur l'interface claude.ai et sur Cowork . Cette fonctionnalité, très attendue, permet à l'utilisateur de choisir la puissance de calcul que Claude va mobiliser pour chaque réponse, selon plusieurs paliers :
xhigh dans Claude Code) : Un niveau de raisonnement plus poussé, recommandé pour les tâches difficiles.Pour accompagner cette nouveauté, les limites de volume ont été revues à la hausse dans Claude Code, notamment pour les niveaux « Extra » et « Max », qui consomment davantage de tokens .
Pour les développeurs qui s'attaquent à des projets titanesques, Anthropic introduit une fonctionnalité très prometteuse en mode « research preview » dans Claude Code : les workflows dynamiques .
Cette fonction permet à Claude de planifier une tâche complexe, puis de lancer et d'exécuter des centaines de sous-agents en parallèle au sein d'une même session, avant de vérifier leurs résultats. C'est une solution idéale pour des migrations à grande échelle, comme le refactoring de centaines de milliers de lignes de code . Cette option est pour l'instant réservée aux abonnés des plans Enterprise, Team et Max.
Bonne nouvelle pour les utilisateurs : la tarification standard d'Opus 4.8 reste exactement la même que celle d'Opus 4.7, à savoir 5 $ par million de tokens en entrée et 25 $ par million de tokens en sortie .
Le changement majeur concerne le « mode rapide ». Proposé comme une option pour Opus 4.8, il offre une vitesse de génération jusqu'à 2,5 fois plus élevée pour un coût de 10 $ par million de tokens en entrée et 50 $ en sortie . C'est trois fois moins cher que ce que coûtait le mode rapide pour les précédents modèles Opus 4.6 et 4.7, facturé 30 $ / 150 $
. Anthropic a d'ailleurs annoncé la dépréciation du mode rapide pour Opus 4.6 et invite les utilisateurs à migrer vers celui d'Opus 4.8
.
Le modèle est d'ores et déjà disponible via l'API Claude sous le nom claude-opus-4-8. Il est compatible avec le mode rapide, la mise en cache des prompts et les traitements par lots . Les abonnés aux plans Pro, Max, Team et Enterprise de Claude peuvent y accéder immédiatement
.
En parallèle de cette sortie, Anthropic a dévoilé une feuille de route plus précise concernant sa future famille de modèles Mythos. Depuis le 7 avril 2026, l'aperçu de Claude Mythos était strictement limité à une cinquantaine de partenaires en cybersécurité défensive, dans le cadre du Projet Glasswing, en raison de ses capacités offensives hors norme .
Le 28 mai, l'entreprise a franchi un nouveau cap dans sa communication en annonçant vouloir « mettre les modèles de classe Mythos à disposition de tous ses clients dans les semaines à venir » . C'est le signe le plus fort envoyé par l'entreprise concernant la sortie de cette architecture très attendue, même si les détails sur les garde-fous qui l'accompagneront restent à préciser. Pour soutenir ce développement, Anthropic a également officialisé une levée de fonds de 65 milliards de dollars, valorisant l'entreprise à 965 milliards de dollars
.
Claude Opus 4.8 s'impose comme une mise à jour pragmatique qui coche trois cases essentielles pour les professionnels :
Comments
0 comments