Anthropics Opus 4.8 behält zudem die Preise von Opus 4.7 bei – keine Preiserhöhung trotz bedeutender Benchmark-Verbesserungen . GPT-5.5 hingegen hat den API-Preis seines Vorgängers GPT-5.4 verdoppelt, wobei OpenAI argumentiert, dass die gestiegene Token-Effizienz den effektiven Kostenanstieg auf etwa 20 % reduziere
.
Alle drei Modelle unterstützen Prompt Caching mit etwa 90 % Ersparnis bei gecachten Input-Tokens und bieten Stapelverarbeitung mit 50 % Rabatt .
GPT-5.5 hat außerdem eine Pro-Stufe für $30/$180 pro Mio. Tokens, die für Workloads auf Forschungsniveau gedacht ist . Claude Opus bietet keine vergleichbare Stufe.
Direkte Vergleiche der Modelle sind aufgrund unterschiedlicher Benchmark-Versionen und Testverfahren kompliziert. Wo Ergebnisse für denselben Test vorliegen, führt Opus 4.8 in den Bereichen, die für Entwickler am wichtigsten sind.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (Coding) | 88,6 % | 87,6 % | Nicht direkt vergleichbar |
| SWE-bench Pro (agentisches Coding) | 69,2 % | 64,3 % | 58,6 % |
| Terminal-Bench 2.1 | 74,6 % | — | — |
| Terminal-Bench 2.0 | — | 69,4 % | 82,7 % |
| Multidisziplinäres Reasoning (mit Tools) | 57,9 % | 54,7 % | Nicht direkt vergleichbar |
| Multidisziplinäres Reasoning (ohne Tools) | ~62,1 % | — | — |
| GPQA Diamond (Wissenschaft auf Hochschulniveau) | 93,6 % | 94,2 % | — |
| MMLU (Allgemeinwissen) | — | 91,3 % | — |
| AIME 2024 (Mathematikwettbewerb) | — | 99,8 % | — |
| CursorBench | Höchster | Basis | — |
| GDPval-AA (Wissensarbeit) | 1890 | 1753 | 1769 |
| Super-Agent (End-to-End) | 100 % | — | Nicht 100 % |
| Agentische Computernutzung | 83,4 % | 82,8 % | 78,7 % |
SWE-bench Pro ist derzeit der meistzitierte Benchmark für reale Softwareentwicklungsaufgaben. Opus 4.8 erreicht hier 69,2 % und GPT-5.5 58,6 % – ein Vorsprung von 10,6 Prozentpunkten . Opus 4.7 lag mit 64,3 % bereits vorne, und Opus 4.8 baut diesen Vorsprung noch aus. Anthropics Ankündigung hebt eine schnellere Aufgabenbearbeitung und viermal weniger Codefehler im Vergleich zu früheren Modellen hervor
.
Dieser Benchmark erfordert genaues Hinsehen. GPT-5.5 meldet 82,7 % bei Terminal-Bench 2.0 , während die 74,6 % von Opus 4.8 bei Terminal-Bench 2.1, einer neueren Version, gemessen wurden
. Beide Werte sind nicht direkt vergleichbar. Zudem steht die Behauptung von OpenAI (82,7 %) in der Kritik; die Bestenliste des Benchmark-Betreibers zeigte am selben Tag 82,0 % ± 2,2 an
. Opus 4.7 erreichte 69,4 % bei Terminal-Bench 2.0
, und unabhängige Tests mit anderen Testumgebungen haben ergeben, dass GPT-5.5 in diesem Benchmark teilweise schlechter abschneidet als GPT-5.4
.
Bei GDPval-AA, einer Evaluierung der Wissensarbeit, erreicht Opus 4.8 einen Elo-Wert von 1890, verglichen mit 1769 von GPT-5.5 – ein Vorteil von rund 7 % . Opus 4.8 ist zudem das erste Modell, das Anthropics Super-Agent-Benchmark zu 100 % abschließt. Das bedeutet, es hat jede End-to-End-agentische Aufgabe in der Testsuite erfolgreich ausgeführt
. GPT-5.5 hat die 100 % nicht erreicht.
Bei der agentischen Computernutzung (OSWorld-Verified) liegen die Werte näher beieinander: Opus 4.8 mit 83,4 %, GPT-5.5 mit 78,7 % und Opus 4.7 mit 82,8 % . Hier handelt es sich um Verbesserungen, die in einstelligen Prozentpunkten gemessen werden, nicht um Generationssprünge.
Die Abdeckung von GPT-5.5 bei den geteilten Benchmarks, die Anthropic mit Opus 4.8 veröffentlicht hat, ist dünner, auch weil OpenAI sich auf andere Metriken konzentriert. Bei GPQA Diamond (wissenschaftliches Denken auf Hochschulniveau) erreichte Opus 4.7 94,2 % , während frühere Vergleiche zeigten, dass GPT-5.4 einen leichten Vorsprung vor Opus 4.7 bei rein mathematischem Denken und einigen Wissensabfragen hatte
. Ein direkter GPQA-Vergleich zwischen Opus 4.8 und GPT-5.5 liegt noch nicht vor, obwohl Opus 4.8 mit 93,6 % gemeldet wird
.
OpenAI behauptet zudem, dass GPT-5.5 im Vergleich zu GPT-5.4 etwa 40 % weniger Output-Tokens pro Coding-Aufgabe verbraucht, was den höheren Preis pro Token bei bestimmten Workloads teilweise ausgleichen könnte .
| Spezifikation | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Kontextfenster | 1 Mio. Tokens | 1 Mio. Tokens | 1 Mio. Tokens |
| Schnellmodus | 2,5-fache Geschw. ($10/$50) | 2,5-fache Geschw. ($10/$50) | N/A |
| Veröffentlichungsdatum | 28. Mai 2026 | 16. Apr. 2026 | 23. Apr. 2026 |
| Batch-Rabatt | 50 % | 50 % | 50 % (Flex) |
| Prompt Caching | Ja (bis zu 90 % Rabatt) | Ja (bis zu 90 % Rabatt) | Ja (90 % Rabatt) |
Alle drei Modelle konvergieren bei einem Kontextfenster von 1 Million Tokens, wobei Anthropic die maximale Ausgabe von Opus 4.8 mit 128K Tokens pro Anfrage dokumentiert . Die maximale Ausgabe von GPT-5.5 ist mit 32K Tokens angegeben
.
Claudes Schnellmodus ist optional und läuft etwa mit der 2,5-fachen Geschwindigkeit. Anthropic gibt an, dass der Schnellmodus für Opus 4.8 dreimal günstiger ist als der schnelle Inferenzmodus früherer Opus-Generationen . GPT-5.5 bietet keine vergleichbare Premium-Geschwindigkeitsstufe.
Unabhängige Benchmarks sollten mit ihren Grenzen im Hinterkopf gelesen werden:
Wählen Sie Claude Opus 4.8, wenn: agentisches Coding, Computer-Use-Aufgaben, Wissensarbeit oder Operationen mit langem Kontext Ihren Arbeitsalltag dominieren. Es führt in jedem gemeinsamen Benchmark, wo Vergleiche möglich sind, und die Preisgestaltung ist unverändert zu Opus 4.7.
Wählen Sie GPT-5.5, wenn: Sie tief im OpenAI-Ökosystem verwurzelt sind, rein mathematischem Denken Priorität einräumen oder erwarten, dass Token-Effizienzgewinne den höheren Preis pro Token bei Ihren spezifischen Prompt-Mustern ausgleichen.
Bleiben Sie bei Opus 4.7, wenn: Sie agentisches Coding auf Spitzenniveau wollen (64,3 % SWE-bench Pro liegt immer noch deutlich vor GPT-5.5) und die spezifischen Verbesserungen von Opus 4.8 nicht benötigen – aber angesichts des identischen Preises gibt es wenig Grund, nicht zu aktualisieren.
Für Entwickler, die ausgabelastige Agenten oder die Analyse langer Dokumente betreiben, machen die 17 % günstigeren Output-Preise und die pauschalen Tarife für lange Kontexte von Claude Opus einen spürbaren Unterschied in der monatlichen API-Rechnung.
Comments
0 comments