Gerüchte über GPT-5.5 „Spud“ klingen nach einem großen Sprung: ein neues OpenAI-Modell, das Bilder, Formulare, Diagramme, Scans und Dokumente besser mit sichtbaren Belegen verknüpft. Genau an dieser Stelle lohnt sich aber die Bremse. In den offiziellen OpenAI-Quellen, die für diesen Faktencheck vorliegen, ist GPT-5.4 dokumentiert — nicht GPT-5.5 und nicht Spud [20][
23][
24].
Das beweist nicht, dass ein Codename „Spud“ intern nie verwendet wurde. Es heißt nur: Öffentliche Aussagen zu Launchtermin, Benchmark-Leistung oder überlegenem multimodalem Grounding sind durch die offiziellen Belege in diesem Quellenpaket nicht abgesichert.
Kurzurteil: Spud ist derzeit ein unbestätigtes Label
Die belastbarste Spur führt zu GPT-5.4. OpenAIs Modellseite nennt GPT-5.4 das Frontier-Modell für komplexe professionelle Arbeit; auch der Latest-Model-Leitfaden und der Modellindex verweisen auf GPT-5.4 [20][
23][
24].
Die Spud-Fundstellen in diesem Quellenpaket sind dagegen allgemeine Webartikel, Reddit-Beiträge, X-Posts und YouTube-Videos — keine offiziellen OpenAI-Modellseiten, Modellkarten, Leitfäden oder Benchmarkberichte [2][
3][
5][
7][
9][
12]. Die vorsichtige Lesart lautet daher: GPT-5.5 „Spud“ sollte als Gerücht oder unbestätigter Name behandelt werden, bis OpenAI selbst belastbare Dokumentation veröffentlicht.
Behauptungen im Check
| Behauptung | Status | Was die Quellen hergeben |
|---|---|---|
| GPT-5.5 „Spud“ ist ein offizielles öffentliches OpenAI-Modell | Nicht belegt | Die geprüften offiziellen OpenAI-Quellen dokumentieren GPT-5.4, nicht GPT-5.5 oder eine Spud-Modellseite [ |
| Spud steht kurz vor dem Start oder ist bereits validiert | Unbestätigt | Die Spud-Verweise in diesem Set stammen aus allgemeinen Webquellen oder nutzergenerierten Social- und Videoquellen [ |
| OpenAI beschreibt multimodale Dokument-Workflows | Für GPT-5.4 belegt | OpenAI stellt GPT-5.4-Hinweise zu Vision und Dokumentverständnis bereit, einschließlich Prompt-Empfehlungen für dichte oder räumlich sensible Bildaufgaben [ |
| Spud ist bei multimodalem Grounding besser als GPT-5.4 | Hier nicht gestützt | Die offiziellen Unterlagen belegen GPT-5.4-Hinweise, liefern aber keine Spud-spezifischen Fähigkeiten oder Benchmarks [ |
Was OpenAI zu GPT-5.4 tatsächlich dokumentiert
OpenAIs offizielle GPT-5.4-Seite beschreibt GPT-5.4 als Frontier-Modell für komplexe professionelle Arbeit [20]. Zusätzlich gibt es im OpenAI-Cookbook — also in praxisnahen Entwicklerbeispielen — eine GPT-5.4-Seite zu Vision und Dokumentverständnis [
1]. In dem abgerufenen Material werden unter anderem strukturierte Extraktion aus einem handschriftlichen Versicherungsformular, räumliches Denken über einen Wohnungsgrundriss, Diagrammverständnis und Bounding-Box-Extraktion aus einem Polizeiformular behandelt [
1].
Diese Beispiele sind relevant, weil reale Dokumentenarbeit mehr verlangt als eine flüssige Zusammenfassung. Ein geerdetes System muss Antworten mit sichtbaren Informationen verbinden: Feldnamen und Werte, Tabellenzellen, Achsen und Markierungen in Diagrammen, Handschrift, Layout und räumliche Positionen. Gleichzeitig bleiben die GPT-5.4-Unterlagen hier OpenAI-eigene Anleitung und Demonstration; sie ersetzen keinen unabhängig auditierten Benchmark für jede mögliche Produktions-Pipeline [1][
20][
22].
Ein besonders praktischer Punkt betrifft die Bildqualität. OpenAIs Prompt-Hinweise empfehlen für große, dichte oder räumlich sensible Bilder die Detailstufe original, vor allem bei Computer-Use-, Lokalisierungs-, OCR- und Click-Accuracy-Aufgaben [22]. Für Formulare, Scans, Screenshots und Diagramme heißt das: Eine Pipeline kann Genauigkeit verlieren, wenn sie Bilder zu stark verkleinert oder genau jene Details entfernt, die das Modell prüfen müsste.
Warum multimodales Grounding mehr ist als OCR
OCR, also optische Zeichenerkennung, liest Text. Multimodales Grounding geht weiter: Es verknüpft Text mit Layout, Position, visueller Struktur und Schlussfolgerungen, sodass eine Antwort am Dokument überprüfbar wird.
Auch die Forschungsliteratur betrachtet Dokumentverständnis breiter. Benchmarks in diesem Feld umfassen unter anderem Formularverständnis, Receipt Parsing und Document Visual Question Answering, also das Beantworten von Fragen zu Dokumentbildern [38]. Bei mehrseitigem Document VQA kann ein Modell außerdem über Seiten hinweg navigieren, relevante Inhalte suchen, gezielt Seiten abrufen und visuell prüfen, statt nur eine einzelne Bildseite auszuwerten [
37].
Genau deshalb reicht eine beeindruckende Screenshot-Demo nicht aus. Wer Dokument-KI ernsthaft bewertet, sollte die tatsächlichen Dokumenttypen, Scanqualität, Seitenzahl, Handschrift, Tabellen, Diagramme, Kleingedrucktes und typische Fehlerfälle des eigenen Workflows testen.
So lässt sich GPT-5.4 heute sinnvoll prüfen
- Mit dokumentierten Modellen beginnen. In den geprüften offiziellen Quellen ist GPT-5.4 das dokumentierte OpenAI-Modell; GPT-5.5 „Spud“ ist dort nicht verifiziert [
20][
23][
24].
- Bilddetails erhalten, wenn sie zählen. Für dichte, große oder räumlich sensible Eingaben wie OCR, Lokalisierung, Click-Accuracy und Computer-Use-Aufgaben empfiehlt OpenAI
originalals Detailstufe [22].
- Belege statt Sprachfluss bewerten. Bei Extraktion zählen exakte Feldwerte. Bei Diagrammen sollten Werte nachvollziehbar sein. Bei Formularen und Screenshots können Koordinaten oder Boxen nötig sein; OpenAIs GPT-5.4-Beispiele enthalten Bounding-Box-Extraktion [
1].
- Die eigenen Dokumenttypen testen. Formulare, Quittungen und Document-VQA-Aufgaben tauchen in der Benchmark-Literatur zum Dokumentverständnis ausdrücklich auf [
38].
- Mehrseitige Fälle einbauen. Multi-Page Document VQA kann Navigation, strukturiertes visuelles Schließen, semantische Suche und gezieltes Abrufen einzelner Seiten erfordern [
37].
- Pipeline-Designs vergleichen. Manche Aufgaben funktionieren möglicherweise in einem direkten Modellaufruf, andere brauchen OCR, Layout-Parsing, Retrieval, Zuschnitt oder Seitenauswahl — besonders bei langen, dichten oder räumlich sensiblen Dateien [
22][
37][
38].
Fazit
Der Name „Spud“ taucht in gerüchteartiger Berichterstattung auf, ist in den hier geprüften offiziellen Quellen aber nicht als öffentliches OpenAI-Modell verifiziert. Die praktische Schlussfolgerung ist enger und nüchterner: Wer OpenAIs dokumentierte Bild- und Dokumentfähigkeiten prüfen will, sollte GPT-5.4 evaluieren — und Behauptungen zu GPT-5.5 „Spud“ erst dann als belegt behandeln, wenn OpenAI eine offizielle Modellseite, einen Leitfaden, eine Modellkarte oder einen Benchmarkbericht veröffentlicht [1][
20][
22][
23][
24].




