Die kurze Antwort lautet: Wer nur nach dem besten Modell fragt, stellt wahrscheinlich die falsche Frage. Die veröffentlichten Benchmarks zu Claude Opus 4.7 und GPT-5.5 zeigen vor allem, dass beide Modelle unterschiedliche Arbeitslasten besser bedienen. Claude Opus 4.7 wirkt besonders stark bei SWE-bench Pro, GPQA Diamond und MCP Atlas; GPT-5.5 punktet bei Terminal-Bench 2.0, OSWorld-Verified, BrowseComp und FrontierMath [6][
14][
15][
29][
34].
Wichtig ist aber: Diese Werte lassen sich nicht wie Bundesliga-Punkte einfach addieren. Artificial Analysis vergleicht GPT-5.5 im xhigh-Modus mit Claude Opus 4.7 in der Einstellung Non-reasoning, High Effort, während LLM Stats betont, dass die Benchmarks eher eine passende Workload als einen eindeutigen Gewinner auswählen [3][
4]. Für Entwicklerteams, Produktverantwortliche und Unternehmen zählt daher weniger die Rangliste als die Frage: Soll das Modell Code reparieren, Terminal-Aktionen ausführen, recherchieren, Werkzeuge bedienen oder mathematisch prüfen?
Die wichtigsten Benchmarks im Überblick
| Bereich | Benchmark | Claude Opus 4.7 | GPT-5.5 | Einordnung |
|---|---|---|---|---|
| Coding | SWE-bench Pro | 64,3 % | 58,6 % | Bei Aufgaben rund um reale GitHub-Issues liegt Claude vorn [ |
| Terminal-Arbeit | Terminal-Bench 2.0 | 69,4 % | 82,7 % | Für CLI-Workflows, Dateimanipulation und Skriptausführung ist GPT-5.5 deutlich stärker [ |
| Computer-Nutzung | OSWorld-Verified | 78,0 % | 78,7 % | Nahezu Gleichstand, mit einem kleinen Vorsprung für GPT-5.5 [ |
| Browsing und Suche | BrowseComp | 79,3 % | 84,4 % | GPT-5.5 liegt vorn; GPT-5.5 Pro wird sogar mit 90,1 % angegeben [ |
| Tool-Nutzung | MCP Atlas | 79,1 % | 75,3 % | Nicht jede Tool-Kategorie geht an GPT-5.5; hier führt Claude [ |
| Wissenschaftliches Reasoning | GPQA Diamond | 94,2–94,3 % | 93,6 % | Claude Opus 4.7 liegt knapp vor GPT-5.5 [ |
| Mathematik | FrontierMath T1-3 / T4 | 43,8 % / 22,9 % | 51,7 % / 35,4 % | Bei schweren Mathematikaufgaben ist GPT-5.5 klar stärker [ |
| Allgemeines Reasoning | HLE, ohne Tools | 31,2 % oder 46,9 % | 40,6 % oder 41,4 % | Die Quellen widersprechen sich; als Tie-Breaker ist HLE derzeit heikel [ |
| Reasoning mit Tools | HLE, mit Tools | 54,7 % | 52,2 % | Mit Tool-Nutzung wird Claude knapp höher angegeben [ |
Coding: Claude für GitHub-Issues, GPT-5.5 für Terminal-Flows
Bei Coding-Benchmarks lohnt sich der zweite Blick. SWE-bench Pro und Terminal-Bench 2.0 messen nicht dasselbe. In SWE-bench Pro erreicht Claude Opus 4.7 64,3 %, GPT-5.5 58,6 % [6][
34]. Vellum beschreibt diesen Abstand als Hinweis darauf, dass Claude bei realitätsnahen GitHub-Issue-Aufgaben stärker abschneidet [
34].
Sobald die Arbeit stärker in Richtung Terminal, Shell und Dateisystem geht, dreht sich das Bild. Terminal-Bench 2.0 wird als Benchmark für reale CLI-Workflows beschrieben, darunter mehrstufige Aufgaben mit Dateimanipulation, Skriptausführung und Projekt-Navigation. Dort liegt GPT-5.5 mit 82,7 % klar vor Claude Opus 4.7 mit 69,4 % [6][
14][
23]. Wer also einen Agenten bauen will, der im Terminal arbeitet, Ordner durchsucht, Skripte startet und Fehler iterativ behebt, sollte GPT-5.5 früh testen.
Auch die qualitative Einschätzung passt dazu. Mindstudio sieht GPT-5.5 leicht im Vorteil, wenn präzise Tool-Nutzung und Dateinavigation gefragt sind. Claude Opus 4.7 wird dagegen stärker bei Architekturverständnis über große Codebasen hinweg beschrieben [5]. Praktisch gesagt: Für komplexe Refactorings, Code Reviews und strukturelle Änderungen spricht mehr für Claude; für ausführende Entwicklungsautomatisierung im Terminal spricht mehr für GPT-5.5.
Vorsicht ist bei SWE-bench Verified angebracht. APIYI und LLM Stats nennen für Claude Opus 4.7 einen Wert von 87,6 %, doch aus den bereitgestellten Quellen lässt sich kein sauber vergleichbarer GPT-5.5-Wert unter identischen Bedingungen ableiten [8][
30]. Schon kleine Unterschiede bei Modellmodus, Harness, Tool-Setup oder Wiederholungsregeln können das Bild verschieben [
3][
23].
Agenten und Tools: GPT-5.5 ist breit stark, aber nicht überall
Bei Computer-Use-Benchmarks liegt GPT-5.5 knapp vorn. OpenAI nennt für OSWorld-Verified 78,7 % für GPT-5.5 und 78,0 % für Claude Opus 4.7 [15]. Der Abstand ist gering, aber nach den veröffentlichten Zahlen hat GPT-5.5 hier die Nase leicht vorn [
15].
Deutlicher ist der Vorsprung bei BrowseComp, einem Benchmark für Such- und Browsing-Aufgaben. OpenAI gibt GPT-5.5 mit 84,4 %, GPT-5.5 Pro mit 90,1 % und Claude Opus 4.7 mit 79,3 % an [15]. Für Recherche-Agenten, Web-Browsing, Informationssuche und vergleichbare Workflows ist GPT-5.5 daher ein naheliegender erster Kandidat.
Das heißt jedoch nicht, dass GPT-5.5 pauschal das bessere Tool-Modell ist. Bei MCP Atlas liegt Claude Opus 4.7 mit 79,1 % vor GPT-5.5 mit 75,3 % [15]. Für Teams ist die Lehre daraus ziemlich bodenständig: Browser-Suche, GUI-Computer-Nutzung, MCP-artige Tool-Aufrufe und Terminal-Automatisierung sollten getrennt getestet werden. Ein guter Wert in einer Agenten-Kategorie garantiert keinen Sieg in der nächsten.
Reasoning: Wissenschaft knapp für Claude, Mathematik klar für GPT-5.5
Im wissenschaftlichen Reasoning ist der Abstand klein. GPQA Diamond wird mit 94,2 bis 94,3 % für Claude Opus 4.7 und 93,6 % für GPT-5.5 angegeben [14][
29]. Nach den vorliegenden Quellen liegt Claude damit knapp vorn, aber nicht mit einem Vorsprung, der allein eine Modellentscheidung tragen sollte [
14][
29].
Bei Mathematik sieht es anders aus. In FrontierMath T1-3 erreicht GPT-5.5 51,7 %, Claude Opus 4.7 43,8 %. In der schwierigeren T4-Stufe werden 35,4 % für GPT-5.5 und 22,9 % für Claude genannt [14]. Für formale Mathematik, mehrstufige Herleitungen und Aufgaben, bei denen Verifikation und Rechenlogik im Mittelpunkt stehen, ist GPT-5.5 nach diesen Zahlen der stärkere Startpunkt.
HLE taugt derzeit kaum als endgültiger Tie-Breaker
Humanity’s Last Exam, kurz HLE, ist in diesem Vergleich der wackligste Baustein. Mashable nennt für die No-Tools-Bedingung 40,6 % für GPT-5.5 und 31,2 % für Claude Opus 4.7 [6]. o-mega und RDWorld führen dagegen 41,4 % für GPT-5.5 und 46,9 % für Claude Opus 4.7 an [
14][
23].
Mit Tools berichten Mashable und RDWorld 52,2 % für GPT-5.5 und 54,7 % für Claude Opus 4.7 [6][
23]. Das spricht in dieser speziellen Einstellung knapp für Claude. Weil die No-Tools-Werte aber je nach Quelle stark auseinanderlaufen, sollte HLE nicht allein über die Frage entscheiden, welches Modell insgesamt besser schlussfolgert.
Kontextfenster, Preise und Leaderboards: nützlich, aber kein Ersatz für eigene Tests
Auch beim Kontextfenster unterscheiden sich die Darstellungen. Artificial Analysis führt GPT-5.5 mit 922k Tokens und Claude Opus 4.7 mit 1.000k Tokens auf [3]. LLM Stats beschreibt dagegen beide Modelle als 1M-Token-Modelle mit gleichem Input-Preisniveau [
4]. Für die Praxis heißt das: Beide gehören zur Klasse der sehr langkontextfähigen Modelle, aber konkrete Limits, Preise und Tool-Kosten sollten im jeweils genutzten API- oder Produkt-Tarif geprüft werden.
Gesamt-Rankings sind ebenfalls nur ein Ausgangspunkt. BenchLM listet Claude Opus 4.7 auf Platz 2 von 110 Modellen im Provisional Leaderboard und auf Platz 2 von 14 im Verified Leaderboard [1]. GPT-5.5 steht bei BenchLM auf Platz 5 von 112 im Provisional Leaderboard und auf Platz 2 von 16 im Verified Leaderboard [
17]. Das zeigt: Beide spielen in der Spitzengruppe. Für reale Produkte zählen aber zusätzlich Latenz, Kosten, Stabilität der Tool-Aufrufe, Fehlertypen und Wiederholbarkeit.
Welches Modell sollte man zuerst testen?
Claude Opus 4.7 ist der naheliegende erste Testkandidat, wenn:
- viele Aufgaben SWE-bench-Pro-ähnlich sind, also reale Code-Issues und Bugfixes betreffen [
6][
34]
- große Codebasen verstanden, restrukturiert oder reviewed werden sollen [
5]
- wissenschaftliche Expertenfragen nach Art von GPQA Diamond wichtig sind [
14][
29]
- MCP Atlas oder vergleichbare Tool-Use-Szenarien besonders relevant sind [
15]
GPT-5.5 sollte zuerst auf die Shortlist, wenn:
- Terminal-, CLI- und Dateisystem-Automatisierung im Zentrum steht [
6][
14][
23]
- Computer-Use-Benchmarks wie OSWorld-Verified eine hohe Priorität haben [
15]
- Web-Recherche, Browsing und Such-Agenten zentrale Produktfunktionen sind [
15]
- schwierige Mathematik und formales Prüfen nach FrontierMath-Art entscheidend sind [
14]
Fazit
Claude Opus 4.7 ist nach den vorliegenden Zahlen besonders stark bei SWE-bench Pro, GPQA Diamond und MCP Atlas [6][
14][
15][
29][
34]. GPT-5.5 ist besonders stark bei Terminal-Bench 2.0, OSWorld-Verified, BrowseComp und FrontierMath [
6][
14][
15][
23].
Die realistische Entscheidung lautet also nicht: Claude oder GPT? Sie lautet: Welche Arbeit soll automatisiert werden? Für komplexe Codeänderungen, Architekturverständnis und wissenschaftliche Fragen spricht viel dafür, Claude Opus 4.7 zuerst zu testen. Für Terminal-Agenten, Browsing, Computer-Nutzung und Mathematik ist GPT-5.5 der bessere erste Kandidat.




