Wer nur fragt, ob GPT‑5.5 oder Claude Opus 4.7 „besser“ ist, bekommt aus den öffentlichen Benchmarks keine belastbare Pauschalantwort. Die sinnvollere Frage lautet: Welcher Benchmark ähnelt Ihrem tatsächlichen Workload?
Das Muster ist relativ klar: GPT‑5.5 wirkt stärker bei Terminal-, Browsing- und mehreren Agenten-Workflows. Claude Opus 4.7 liegt dagegen bei SWE-Bench Pro, MCP Atlas und einigen reasoning- beziehungsweise tooling-nahen Tests vorn [5][
6][
11].
Wichtig ist aber die Quellenlage. Viele Zahlen stammen aus Anbieterangaben, Aggregatoren oder Vergleichstabellen. LLM Stats weist bei GPT‑5.5 ausdrücklich darauf hin, dass Scores selbst gemeldet sein können und nicht zwingend unabhängig verifiziert wurden [8]. Die folgenden Benchmarks eignen sich deshalb gut, um Modelle für eine Shortlist auszuwählen – nicht, um ohne eigenen Test ein Produktionsmodell festzulegen.
Die wichtigsten Benchmarks im direkten Vergleich
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Einordnung für die Praxis |
|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % | 69,4 % | Deutlicher Vorteil für GPT‑5.5 bei komplexen Kommandozeilen-Workflows. OpenAI beschreibt den Test als Benchmark für Aufgaben, die Planung, Iteration und Tool-Koordination erfordern [ |
| SWE-Bench Pro | 58,6 % | 64,3 % | Vorteil für Claude Opus 4.7 bei schwierigen realen GitHub-Issues. OpenAI beschreibt SWE-Bench Pro als Test für die Lösung realer GitHub-Probleme [ |
| GPQA Diamond | 93,6 % | 94,2 % | Claude liegt knapp vorn, der Abstand beträgt aber nur 0,6 Prozentpunkte [ |
| BrowseComp | 84,4 % | 79,3 % | GPT‑5.5 führt in den Vergleichstabellen von Vellum und Mashable [ |
| GDPval | 84,9 % | 80,3 % | GPT‑5.5 liegt in der Vellum-Tabelle vorn [ |
| OSWorld-Verified | 78,7 % | 78,0 % | GPT‑5.5 ist nur minimal besser; dieser Abstand sollte im eigenen Workflow überprüft werden [ |
| MCP Atlas | 75,3 % | 79,1 % | Claude Opus 4.7 führt bei diesem Tool-Orchestrierungs-nahen Benchmark in der Vellum-Tabelle [ |
| FrontierMath T1–3 | 51,7 % | 43,8 % | GPT‑5.5 liegt in der Vellum-Tabelle vorn [ |
| FinanceAgent v1.1 | Kein vollständiger Gegenwert in den bereitgestellten Quellen | 64,4 % bei DataCamp | LLM Stats sieht Claude bei FinanceAgent v1.1 vorn; wegen fehlender vollständiger Vergleichswerte sollte man vorsichtig bleiben [ |
| Humanity’s Last Exam | Uneinheitlich | Uneinheitlich | Nicht als Tie-Breaker geeignet, solange nicht beide Modelle unter identischen Bedingungen getestet wurden; LLM Stats, Mashable und o-mega zeigen unterschiedliche Signale [ |
Aggregiert LLM Stats die zehn Benchmarks, die beide Anbieter melden, führt Claude Opus 4.7 in sechs davon, GPT‑5.5 in vier. Laut LLM Stats liegen Claudes Stärken eher bei reasoning-lastigen und review-nahen Tests, während GPT‑5.5 bei längerem Tool-Einsatz und shell-getriebenen Aufgaben punktet [6]. Diese Lesart ist nützlich – löst aber nicht die Widersprüche bei einzelnen Benchmarks wie Humanity’s Last Exam [
6][
9][
11].
Coding: Terminal-Bench und SWE-Bench messen nicht dasselbe
Für agentisches Coding in der Kommandozeile ist GPT‑5.5 nach den öffentlichen Zahlen der stärkere Kandidat. Auf Terminal-Bench 2.0 erreicht GPT‑5.5 82,7 %, Claude Opus 4.7 69,4 % [5][
11]. OpenAI beschreibt Terminal-Bench 2.0 als Test für komplexe Command-Line-Workflows, die Planung, Wiederholungsschleifen und Tool-Koordination erfordern [
23].
Das ist besonders relevant für CLI-Copiloten, DevOps-Assistenten oder Coding-Agenten, die Tests ausführen, Fehlermeldungen lesen, Dateien ändern und den Zyklus wiederholen sollen. Für solche Workflows ist Terminal-Bench 2.0 meist aussagekräftiger als ein allgemeiner Reasoning-Score.
Anders sieht es bei realen Software-Issues aus. Auf SWE-Bench Pro liegt Claude Opus 4.7 mit 64,3 % vor GPT‑5.5 mit 58,6 % [5][
11]. OpenAI beschreibt diesen Benchmark als Evaluation für reale GitHub-Issue-Lösung [
23]. Wenn Ihr Workload also eher Bugfixes, Änderungen in echten Repositories oder review-nahe Softwareaufgaben umfasst, gehört Claude Opus 4.7 in die erste Testrunde.
SWE-Bench Verified ist in den vorliegenden Quellen weniger sauber als Entscheidungsgrundlage. MindStudio nennt für Claude Opus 4.7 82,4 %, APIyi und DataCamp nennen 87,6 %; zugleich liefern die bereitgestellten Quellen kein stabiles GPT‑5.5-vs.-Claude-Opus-4.7-Wertepaar für genau diese Zeile [1][
2][
3].
Agenten und Workflows: GPT‑5.5 hat viele Pluspunkte, Claude eigene Stärken
Bei Agenten-Workflows sprechen mehrere öffentliche Werte für GPT‑5.5. In der Vellum-Tabelle führt GPT‑5.5 bei BrowseComp mit 84,4 % zu 79,3 %, bei GDPval mit 84,9 % zu 80,3 % und bei OSWorld-Verified mit 78,7 % zu 78,0 % [5]. Mashable nennt für BrowseComp dasselbe Wertepaar: 84,4 % für GPT‑5.5 und 79,3 % für Claude Opus 4.7 [
11]. LLM Stats führt außerdem CyberGym als weiteren Benchmark an, bei dem GPT‑5.5 vorn liegt [
6].
Claude Opus 4.7 sollte man trotzdem nicht zu früh aussortieren. In der Vellum-Tabelle führt Claude bei MCP Atlas mit 79,1 % gegenüber 75,3 % für GPT‑5.5 [5]. LLM Stats sieht Claude zudem bei FinanceAgent v1.1 vorn, und DataCamp nennt für Claude Opus 4.7 dort 64,4 % [
3][
6]. Anthropic beschreibt Claude Opus 4.7 außerdem als neues Opus-Modell mit stärkerer Leistung bei Coding, Agenten, Vision und mehrstufigen Aufgaben [
28].
Die praktische Faustregel: Für Shell-, Browsing- und OS-nahe Automatisierung ist GPT‑5.5 der naheliegende erste Kandidat. Für strukturierte Tool-Orchestrierung, MCP-nahe Workflows oder Finanz-Agenten sollte Claude Opus 4.7 direkt mitgetestet werden.
Reasoning: GPQA ist knapp, HLE zu widersprüchlich
Bei GPQA Diamond liegt Claude Opus 4.7 mit 94,2 % knapp vor GPT‑5.5 mit 93,6 % [5][
11]. Das ist ein Vorteil für Claude, aber kein großer. Ein Abstand von 0,6 Prozentpunkten reicht kaum aus, um alle wissenschaftlichen, analytischen oder fachlich komplexen Aufgaben automatisch Claude zuzuschreiben.
Humanity’s Last Exam ist noch schwieriger zu interpretieren. LLM Stats sagt, Claude Opus 4.7 führe sowohl bei HLE ohne Tools als auch bei HLE mit Tools [6]. Mashable nennt dagegen bei HLE ohne Tools 40,6 % für GPT‑5.5 und 31,2 % für Opus 4.7, während Claude bei HLE mit Tools mit 54,7 % vor GPT‑5.5 mit 52,2 % liegt [
11]. o-mega liefert zusätzlich ein weiteres HLE-Zahlenset [
9]. Solange die Bedingungen nicht identisch kontrolliert sind, sollte HLE daher nicht als alleiniger Tie-Breaker dienen.
Welche Wahl ist sinnvoll?
Testen Sie GPT‑5.5 zuerst, wenn Ihr Produkt vor allem Terminal-Automatisierung, Shell-Workflows, Test-Loops oder mehrstufige Agentenaktionen ausführen soll. Die starke Führung bei Terminal-Bench 2.0 ist dafür das deutlichste öffentliche Signal [5][
11][
23]. GPT‑5.5 ist außerdem ein guter Startpunkt für Browsing- und Search-nahe Workflows sowie für GDPval, OSWorld-Verified und FrontierMath T1–3 nach der Vellum-Tabelle [
5][
11].
Testen Sie Claude Opus 4.7 zuerst, wenn Ihr Schwerpunkt auf realem Issue-Fixing in Software-Repositories liegt. Genau dort führt Claude auf SWE-Bench Pro [5][
11]. Claude gehört auch auf die Shortlist für GPQA-ähnliches wissenschaftliches Reasoning, MCP- beziehungsweise Tool-Orchestrierung und Finance-Agent-Workflows, gestützt durch GPQA Diamond, MCP Atlas, FinanceAgent v1.1 und die Zusammenfassung von LLM Stats [
3][
5][
6][
11].
Am sichersten ist ein eigener Eval. Teilen Sie Ihre Aufgaben in vier Gruppen: Coding im Repository, Terminal- und Agenten-Automation, Reasoning ohne Tools und Workflows mit Tools. Testen Sie beide Modelle mit denselben Prompts, denselben Tool-Rechten, denselben Sampling-Einstellungen, derselben Reasoning-Stufe und denselben Bewertungskriterien. Öffentliche Benchmarks zeigen, wo man anfangen sollte; erst interne Tests zeigen, welches Modell zuverlässig genug für den produktiven Einsatz ist – gerade weil einzelne öffentliche Werte selbst gemeldet oder nicht unabhängig verifiziert sein können [8].




