BerichteVeröffentlichtvor 2 MonatenLast edited letzten Monat24 Quellen

Claude Opus 4.8 Launch: 69,2 % Agentic-Coding-Score, Zuverlässigkeits-Upgrades und Preise ab 5 Dollar

Claude Opus 4.8 erreicht 69,2 % im SWE Bench Pro Agentic Coding Benchmark und übertrifft damit GPT 5.5 (58,6 %) und Gemini 3.1 Pro (54,2 %), während GPT 5.5 bei Terminal basierten Aufgaben die Nase vorn hat [6][7]. Die Standard Preise bleiben bei 5 US Dollar pro Million Input Tokens und 25 US Dollar pro Million Outp...

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

Anthropic hat am 28. Mai 2026 öffentlich Claude Opus 4.8 veröffentlicht und positioniert es als sein leistungsfähigstes, allgemein verfügbares Modell . Das Update löst direkt Opus 4.7 ab und zielt auf Coding, lang laufende agentische Aufgaben und Enterprise-Zuverlässigkeit. Die Standard-Preise bleiben unverändert, während ein deutlich günstigerer Fast Mode und neue Workflow-Tools das Release begleiten .

Benchmark-Leistung im Vergleich zur Konkurrenz

Der meistzitierte Leistungsvergleich findet auf dem SWE-Bench Pro Agentic-Coding-Benchmark statt. Nach den Evaluierungsdaten von Anthropic erreichte Opus 4.8 führende 69,2 %, verglichen mit 64,3 % für den Vorgänger, 58,6 % für OpenAIs GPT-5.5 und 54,2 % für Googles Gemini 3.1 Pro .

In der breiteren agentischen Coding-Suite hält GPT-5.5 jedoch in bestimmten Bereichen die Führung. Im Terminal-Bench 2.1 für agentisches Terminal-Coding erreichte GPT-5.5 78,2 % und lag damit vor Opus 4.8 mit 74,6 % und Gemini 3.1 Pro mit 70,3 % .

Auch bei Wissensarbeit-Aufgaben meldet Anthropic Zuwächse. Das Modell erzielte 1890 Punkte in der GDPval-AA-Evaluierung für wirtschaftlich wertvolle Wissensarbeit, im Vergleich zu 1769 für GPT-5.5 und 1314 für Gemini . Über die gesamte Suite hinweg behauptet Anthropic, dass Opus 4.8 beide Konkurrenzmodelle in mehreren Schlüsselkategorien übertrifft, auch wenn es nicht jeden einzelnen Test anführt .

Ehrlichkeit und Zuverlässigkeit als Kern-Upgrades

Abseits der reinen Intelligenz-Benchmarks betonte Anthropic stark die Verbesserungen bei der Vertrauenswürdigkeit des Modells. Das Unternehmen berichtete, dass Opus 4.8 etwa viermal weniger wahrscheinlich als Opus 4.7 Fehler im eigenen generierten Code unkommentiert durchgehen lässt .

Rückmeldungen früher Tester hoben hervor, dass das Modell deutlich eher Unsicherheiten signalisiert und weniger zu unbelegten Behauptungen in komplexen, mehrstufigen Arbeitsabläufen neigt . Das Unternehmen bezeichnete „Ehrlichkeit" direkt als herausragendes Produktmerkmal dieser Version und erklärte, das Modell sei weniger geneigt, unzureichend belegte Informationen als Fakten darzustellen .

Einführung von Dynamic Workflows und Effort Control

Zusammen mit dem Basismodell brachte Anthropic neue, benutzerorientierte Funktionen speziell für Entwickler und Power-User auf den Markt .

Dynamic Workflows: Diese als Research Preview in Claude Code verfügbare Funktion erlaubt es dem Modell, eine Aufgabe zu planen, sie über Hunderte paralleler Sub-Agenten zu orchestrieren und die Ergebnisse zu verifizieren, bevor es Bericht erstattet. Es ist für massive Code-Migrationen, Audits und die Fehlersuche innerhalb einer einzigen Sitzung konzipiert .

Anpassbarer Arbeitseinsatz / Effort Control: Nutzer können nun die Denktiefe des Modells bestimmen. Der „Effort"-Parameter auf claude.ai und in Claude Code erlaubt einen Kompromiss zwischen Intelligenz, Token-Kosten und Geschwindigkeit. Die Dokumentation empfiehlt die Stufe xhigh für die schwierigsten Coding- und agentischen Anwendungsfälle und mindestens high für andere intelligenz-sensible Aufgaben .

Aufschlüsselung der API-Preisstruktur

Die Preise für die reguläre API-Nutzung bleiben gegenüber der Vorgängergeneration unverändert .

Standard-Tarif: 5 $ pro Million Input-Tokens, 25 $ pro Million Output-Tokens .
Fast Mode Tarif: 10 $ pro Million Input-Tokens, 50 $ pro Million Output-Tokens. Dieser Modus arbeitet mit etwa der 2,5-fachen Standardgeschwindigkeit und ist damit etwa dreimal günstiger als der Fast Mode der vorherigen Opus-Modelle .

Die Preise für Prompt-Caching sind auf 6,25 $ pro Million Tokens für 5-Minuten-Cache-Schreibvorgänge, 10 $ pro Million Tokens für 1-Stunden-Cache-Schreibvorgänge und 0,50 $ pro Million Tokens für Cache-Treffer und -Aktualisierungen festgelegt .

Was dieser Launch für die KI-Landschaft bedeutet

Das Opus 4.8-Release ist kein reiner Sprung bei den Roh-Benchmarks, sondern ein gezieltes Upgrade für Unternehmen und Entwickler. Die Produktgeschichte dreht sich um Zuverlässigkeit für Agenten, expliziten Umgang mit Unsicherheit und darum, Programmierern durch explizite Aufwandsstufen die Kontrolle über Kosten-Leistungs-Kompromisse zu geben. Die Preisgeschichte bleibt konservativ, ohne Erhöhung für Standard-API-Aufrufe, während die Preissenkung des Fast Mode die schnelle Inferenz für latenzkritische Anwendungen zugänglicher macht.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Claude Opus 4.8 Launch: 69,2 % Agentic-Coding-Score, Zuverlässigkeits-Upgrades und Preise ab 5 Dollar“?

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Das Update betont Verbesserungen bei Ehrlichkeit und Zuverlässigkeit: Das Modell ist viermal weniger anfällig dafür, Fehler im eigenen Code zu übersehen.

Quellen

← Back to Trending