Wer nach „dem“ Benchmark von GPT-5.5 fragt, braucht zuerst den Kontext. Für eine allgemeine Kurzantwort ist 84,9 % auf GDPval die stärkste Zahl: OpenAI nennt sie selbst und beschreibt GDPval als Benchmark für Agenten, die klar spezifizierte Wissensarbeit über 44 Berufe hinweg erstellen sollen.[1]
Wichtig ist die Einschränkung: Dieser Wert ist keine universelle Intelligenz- oder Qualitätsnote. Er sagt vor allem etwas über berufsnahe Wissensarbeit, Aufgabenverständnis und die Erstellung definierter Arbeitsergebnisse aus.[1]
Der wichtigste Kurzbenchmark: 84,9 % auf GDPval
Wenn nur eine Zahl genannt werden soll, ist diese Formulierung am präzisesten:
GPT-5.5 erreicht laut OpenAI 84,9 % auf GDPval, einem Benchmark für klar spezifizierte Wissensarbeit über 44 Berufe hinweg.[
1]
Das ist besonders nützlich für eine schnelle Einordnung von GPT-5.5 als Arbeitsmodell. GDPval ist aber nicht dasselbe wie ein Coding-Test, ein Bioinformatik-Benchmark oder ein externer Modellindex. Genau deshalb führen andere Prozentwerte schnell in die Irre, wenn sie ohne Kontext nebeneinandergestellt werden.
Die wichtigsten öffentlich genannten Werte im Überblick
| Benchmark oder Vergleich | Gemeldeter Wert | Wofür der Wert steht | Einordnung |
|---|---|---|---|
| GDPval | 84,9 % | Klar spezifizierte Wissensarbeit über 44 Berufe | Direkt in OpenAIs GPT-5.5-Ankündigung genannt und deshalb der naheliegende Kurzbenchmark.[ |
| Expert-SWE | 73,1 % | Coding-Aufgaben; laut Bericht eine interne Evaluation für Aufgaben mit geschätzter Bearbeitungszeit von 20 Stunden | Relevanter für Softwareentwicklung als GDPval, aber nicht direkt mit GDPval vergleichbar.[ |
| BixBench | 80,5 % | Real-World-Bioinformatik-Benchmark | Thematisch relevant für Bioinformatik; in den vorliegenden Quellen schwächer belegt als der OpenAI-Wert zu GDPval.[ |
| Artificial Analysis Intelligence Index | Platz 1, plus 3 Punkte | Externer Modellindex von Artificial Analysis | Hilfreich für einen breiteren Modellvergleich, aber kein einzelner offizieller OpenAI-Benchmark.[ |
Warum die Prozentwerte nicht direkt vergleichbar sind
84,9 %, 73,1 % und 80,5 % sehen aus wie Werte aus derselben Rangliste. Das sind sie nicht.
- 84,9 % auf GDPval bezieht sich auf spezifizierte Wissensarbeit über viele Berufe hinweg.[
1]
- 73,1 % auf Expert-SWE bezieht sich auf Coding-Aufgaben in einer internen Evaluation.[
8]
- 80,5 % auf BixBench bezieht sich auf Bioinformatik-Aufgaben.[
10]
Die bessere Frage lautet deshalb nicht: „Welcher Prozentwert ist am höchsten?“ Sondern: „Welcher Benchmark passt zum Einsatzfall?“ Für allgemeine Wissensarbeit ist GDPval der bessere Referenzpunkt; für Softwareentwicklung ist Expert-SWE näher am Problem; für Bioinformatik ist BixBench thematisch passender.[1][
8][
10]
Was der Artificial-Analysis-Wert aussagt
Artificial Analysis berichtet, dass GPT-5.5 den eigenen Intelligence Index mit drei Punkten Vorsprung anführt.[3] Gleichzeitig heißt es dort, OpenAI führe fünf der Headline-Evaluationen an und liege in drei weiteren hinter Gemini 3.1 Pro Preview.[
3]
Das ist eine wichtige Nuance: Platz 1 in einem externen Index bedeutet nicht, dass ein Modell jeden Einzeltest gewinnt. Es bedeutet, dass GPT-5.5 nach der Methodik dieses Drittanbieter-Index insgesamt vorn liegt.[3]
Vorsicht bei isolierten Schlagzeilenwerten
Einige Berichte nennen weitere GPT-5.5-Zahlen, etwa 91,7 % im Zusammenhang mit Legal-AI-Fähigkeiten oder 82,7 % im Kontext von agentic coding.[4][
5] Solche Werte können für den jeweiligen Spezialfall interessant sein. Für eine allgemeine Benchmark-Antwort sind sie aber weniger geeignet, solange Testaufbau, Vergleichsgruppe und Messziel nicht genauso klar sind wie beim direkt von OpenAI genannten GDPval-Wert.[
1]
Welche Zahl sollte man zitieren?
Für die meisten allgemeinen Vergleiche ist diese Version am saubersten:
GPT-5.5 erzielt laut OpenAI 84,9 % auf GDPval; GDPval testet die Fähigkeit von Agenten, klar spezifizierte Wissensarbeit über 44 Berufe hinweg zu erstellen.[
1]
Wenn der Kontext enger ist, sollte der Benchmark entsprechend wechseln:
- Allgemeine Wissensarbeit: 84,9 % auf GDPval.[
1]
- Softwareentwicklung: 73,1 % auf Expert-SWE.[
8]
- Bioinformatik: 80,5 % auf BixBench, mit Hinweis auf die begrenztere Beleglage.[
10]
- Breiter Modellvergleich: Platz 1 im Artificial Analysis Intelligence Index mit drei Punkten Vorsprung.[
3]
Fazit
Der beste kurze Benchmark-Wert für GPT-5.5 ist 84,9 % auf GDPval.[1] Er ist direkt bei OpenAI belegt und hat einen klar beschriebenen Messbereich: spezifizierte Wissensarbeit über 44 Berufe hinweg.[
1] Andere Zahlen können je nach Einsatzfall wichtiger sein, sollten aber immer zusammen mit ihrem jeweiligen Benchmark genannt werden.




