Der belastbarste Kurzbenchmark für GPT 5.5 ist 84,9 % auf GDPval: OpenAI nennt diesen Wert selbst und beschreibt GDPval als Test für klar spezifizierte Wissensarbeit über 44 Berufe hinweg.[1] Andere Werte wie 73,1 % auf Expert SWE oder 80,5 % auf BixBench messen andere Aufgabenfelder und sollten nicht direkt mit GDP...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeuten. Article summary: Für eine knappe, belastbare Einordnung ist 84,9 % auf GDPval der beste GPT 5.5 Wert: OpenAI nennt ihn selbst und beschreibt GDPval als Test für klar spezifizierte Wissensarbeit über 44 Berufe.. Topic tags: ai, openai, chatgpt, gpt 5, benchmarks. Reference image context from search candidates: Reference image 1: visual subject " GPT-5.5 tops the Artificial Analysis Intelligen" source context "OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis" Reference image 2: visual subject "](/transportation/rv-energy-solar-power-lithium-battery). These companies are buil...
| Expert-SWE | 73,1 % | Coding-Aufgaben; laut Bericht eine interne Evaluation für Aufgaben mit geschätzter Bearbeitungszeit von 20 Stunden | Relevanter für Softwareentwicklung als GDPval, aber nicht direkt mit GDPval vergleichbar.[ |
| BixBench | 80,5 % | Real-World-Bioinformatik-Benchmark | Thematisch relevant für Bioinformatik; in den vorliegenden Quellen schwächer belegt als der OpenAI-Wert zu GDPval.[ |
| Artificial Analysis Intelligence Index | Platz 1, plus 3 Punkte | Externer Modellindex von Artificial Analysis | Hilfreich für einen breiteren Modellvergleich, aber kein einzelner offizieller OpenAI-Benchmark.[ |
84,9 %, 73,1 % und 80,5 % sehen aus wie Werte aus derselben Rangliste. Das sind sie nicht.
Die bessere Frage lautet deshalb nicht: „Welcher Prozentwert ist am höchsten?“ Sondern: „Welcher Benchmark passt zum Einsatzfall?“ Für allgemeine Wissensarbeit ist GDPval der bessere Referenzpunkt; für Softwareentwicklung ist Expert-SWE näher am Problem; für Bioinformatik ist BixBench thematisch passender.[1][
8][
10]
Artificial Analysis berichtet, dass GPT-5.5 den eigenen Intelligence Index mit drei Punkten Vorsprung anführt.[3] Gleichzeitig heißt es dort, OpenAI führe fünf der Headline-Evaluationen an und liege in drei weiteren hinter Gemini 3.1 Pro Preview.[
3]
Das ist eine wichtige Nuance: Platz 1 in einem externen Index bedeutet nicht, dass ein Modell jeden Einzeltest gewinnt. Es bedeutet, dass GPT-5.5 nach der Methodik dieses Drittanbieter-Index insgesamt vorn liegt.[3]
Einige Berichte nennen weitere GPT-5.5-Zahlen, etwa 91,7 % im Zusammenhang mit Legal-AI-Fähigkeiten oder 82,7 % im Kontext von agentic coding.[4][
5] Solche Werte können für den jeweiligen Spezialfall interessant sein. Für eine allgemeine Benchmark-Antwort sind sie aber weniger geeignet, solange Testaufbau, Vergleichsgruppe und Messziel nicht genauso klar sind wie beim direkt von OpenAI genannten GDPval-Wert.[
1]
Für die meisten allgemeinen Vergleiche ist diese Version am saubersten:
GPT-5.5 erzielt laut OpenAI 84,9 % auf GDPval; GDPval testet die Fähigkeit von Agenten, klar spezifizierte Wissensarbeit über 44 Berufe hinweg zu erstellen.[
1]
Wenn der Kontext enger ist, sollte der Benchmark entsprechend wechseln:
Der beste kurze Benchmark-Wert für GPT-5.5 ist 84,9 % auf GDPval.[1] Er ist direkt bei OpenAI belegt und hat einen klar beschriebenen Messbereich: spezifizierte Wissensarbeit über 44 Berufe hinweg.[
1] Andere Zahlen können je nach Einsatzfall wichtiger sein, sollten aber immer zusammen mit ihrem jeweiligen Benchmark genannt werden.
GPT-5.5 scored 73.1% on Expert-SWE, the company's internal evaluation for coding tasks with an estimated 20-hour completion time. OpenAI reports
On BixBench, a real-world bioinformatics benchmark, GPT-5.5 reaches 80.5%, up from 74.0%. Two researcher accounts published alongside the model