In der breiteren agentischen Coding-Suite hält GPT-5.5 jedoch in bestimmten Bereichen die Führung. Im Terminal-Bench 2.1 für agentisches Terminal-Coding erreichte GPT-5.5 78,2 % und lag damit vor Opus 4.8 mit 74,6 % und Gemini 3.1 Pro mit 70,3 % .
Auch bei Wissensarbeit-Aufgaben meldet Anthropic Zuwächse. Das Modell erzielte 1890 Punkte in der GDPval-AA-Evaluierung für wirtschaftlich wertvolle Wissensarbeit, im Vergleich zu 1769 für GPT-5.5 und 1314 für Gemini . Über die gesamte Suite hinweg behauptet Anthropic, dass Opus 4.8 beide Konkurrenzmodelle in mehreren Schlüsselkategorien übertrifft, auch wenn es nicht jeden einzelnen Test anführt
.
Abseits der reinen Intelligenz-Benchmarks betonte Anthropic stark die Verbesserungen bei der Vertrauenswürdigkeit des Modells. Das Unternehmen berichtete, dass Opus 4.8 etwa viermal weniger wahrscheinlich als Opus 4.7 Fehler im eigenen generierten Code unkommentiert durchgehen lässt .
Rückmeldungen früher Tester hoben hervor, dass das Modell deutlich eher Unsicherheiten signalisiert und weniger zu unbelegten Behauptungen in komplexen, mehrstufigen Arbeitsabläufen neigt . Das Unternehmen bezeichnete „Ehrlichkeit" direkt als herausragendes Produktmerkmal dieser Version und erklärte, das Modell sei weniger geneigt, unzureichend belegte Informationen als Fakten darzustellen
.
Zusammen mit dem Basismodell brachte Anthropic neue, benutzerorientierte Funktionen speziell für Entwickler und Power-User auf den Markt .
Dynamic Workflows: Diese als Research Preview in Claude Code verfügbare Funktion erlaubt es dem Modell, eine Aufgabe zu planen, sie über Hunderte paralleler Sub-Agenten zu orchestrieren und die Ergebnisse zu verifizieren, bevor es Bericht erstattet. Es ist für massive Code-Migrationen, Audits und die Fehlersuche innerhalb einer einzigen Sitzung konzipiert .
Anpassbarer Arbeitseinsatz / Effort Control: Nutzer können nun die Denktiefe des Modells bestimmen. Der „Effort"-Parameter auf claude.ai und in Claude Code erlaubt einen Kompromiss zwischen Intelligenz, Token-Kosten und Geschwindigkeit. Die Dokumentation empfiehlt die Stufe xhigh für die schwierigsten Coding- und agentischen Anwendungsfälle und mindestens high für andere intelligenz-sensible Aufgaben .
Die Preise für Prompt-Caching sind auf 6,25 $ pro Million Tokens für 5-Minuten-Cache-Schreibvorgänge, 10 $ pro Million Tokens für 1-Stunden-Cache-Schreibvorgänge und 0,50 $ pro Million Tokens für Cache-Treffer und -Aktualisierungen festgelegt .
Das Opus 4.8-Release ist kein reiner Sprung bei den Roh-Benchmarks, sondern ein gezieltes Upgrade für Unternehmen und Entwickler. Die Produktgeschichte dreht sich um Zuverlässigkeit für Agenten, expliziten Umgang mit Unsicherheit und darum, Programmierern durch explizite Aufwandsstufen die Kontrolle über Kosten-Leistungs-Kompromisse zu geben. Die Preisgeschichte bleibt konservativ, ohne Erhöhung für Standard-API-Aufrufe, während die Preissenkung des Fast Mode die schnelle Inferenz für latenzkritische Anwendungen zugänglicher macht.
Comments
0 comments