Die kurze Antwort: OpenAI hat eine klare multimodale Richtung – aber GPT‑5.5 „Spud“ ist nach den vorliegenden Quellen nicht offiziell als vollmodales Modell bestätigt. Belastbare OpenAI-Dokumente belegen Fähigkeiten rund um GPT‑4o, 4o image generation, Realtime API und Sora; die Spud-Erzählung kommt dagegen vor allem aus nicht offiziellen Artikeln, Threads, Reddit, YouTube, X und LinkedIn.[1][
2][
5][
6][
7][
9][
10][
11][
12][
15][
18][
20][
21][
23]
Das Urteil: Omni-Richtung ja, „Spud“ als Modell nein
Wenn „vollmodal“ oder „omnimodal“ bedeutet, dass ein einziges offizielles Modell nativ Text, Bilder, Audio/Sprache und Video verarbeitet, dann sollte GPT‑5.5 „Spud“ derzeit nicht als veröffentlicht oder bestätigt beschrieben werden. Die offiziellen Belege zeigen, dass OpenAI solche Fähigkeiten in mehreren Produkt- und Modelllinien ausbaut – sie belegen aber nicht, dass diese Fähigkeiten bereits in einem formellen Modell namens Spud gebündelt sind.[12][
15][
18][
20][
21][
23]
| Prüfpunkt | Was sich derzeit sagen lässt | Was daraus nicht folgt |
|---|---|---|
| Name und Veröffentlichung von „Spud“ | Spud taucht vor allem in nicht offiziellen Quellen und nutzergenerierten Beiträgen auf; einige dieser Quellen sprechen selbst von „rumors“ oder „unconfirmed leaks“.[ | Das reicht nicht als Nachweis, dass OpenAI GPT‑5.5 „Spud“ veröffentlicht hat. |
| Omni- oder multimodales Modell | Die GPT‑4o System Card nennt GPT‑4o ein „autoregressive omni model“ und beschreibt, dass es beliebige Kombinationen aus Text, Audio, Bild und Video als Eingabe akzeptieren kann.[ | Das ist ein offizieller Beleg für GPT‑4o, nicht für Spud. |
| Bildgenerierung | OpenAI beschreibt 4o image generation als von einem „natively multimodal model“ getragen und nennt Bildgenerierung eine zentrale Fähigkeit von Sprachmodellen.[ | Daraus folgt nicht, dass Spud diese Bildfähigkeiten bereits offiziell übernimmt. |
| Sprache und Echtzeitinteraktion | Die Realtime API dient laut OpenAI niedrig-latenten multimodalen Erlebnissen; gpt-realtime bringt ein weiterentwickeltes Speech-to-Speech-Modell und Image Input.[ | Das beweist keine vereinheitlichte Sprachfunktion in Spud. |
| Videogenerierung | Offizielle OpenAI-Unterlagen verweisen für Videogenerierung klar auf Sora, die Sora API und die Sora Sample App.[ | Das belegt nicht, dass Spud Sora ersetzt oder integriert. |
| Videoverständnis | OpenAI nennt bei GPT‑4.1 den Benchmark Video-MME für „multimodal long context understanding“ und führt für die Kategorie „long, no subtitles“ 72,0 % sowie einen Vorsprung von 6,7 Prozentpunkten gegenüber GPT‑4o an.[ | Ein Benchmark zu Videoverständnis ist keine Ankündigung von Spud. |
Warum das Spud-Gerücht plausibel klingt
Das Gerücht wirkt auf den ersten Blick nicht völlig aus der Luft gegriffen, weil es an reale OpenAI-Entwicklungen andockt. GPT‑4o wird offiziell mit dem Begriff „omni model“ beschrieben; 4o image generation wird mit einem nativ multimodalen Modell verbunden; und die Realtime API platziert Sprache, Bildeingaben und geringe Latenz in einem offiziellen Entwicklerprodukt.[15][
18][
21][
23]
Auch bei Video gibt es eine echte OpenAI-Spur. Die Sora-Seite beschreibt Sora 2 als Produkt, das Ideen in Videos mit Bewegung und Ton verwandeln kann; die OpenAI-API-Dokumentation erklärt „Video generation with Sora“; und die Sora Sample App kann kurze Videos aus Text-Prompts und Referenzbildern generieren oder remixen.[12][
13][
20]
Genau hier liegt aber die Grenze: Diese Quellen zeigen OpenAIs multimodale Produktlandschaft. Sie zeigen nicht, dass all diese Fähigkeiten in einem bestätigten Modell namens GPT‑5.5 „Spud“ zusammengeführt wurden.
Was OpenAI offiziell belegt
GPT‑4o: der stärkste offizielle Omni-Beleg
Die wichtigste belastbare Quelle für die Omni-Debatte ist derzeit GPT‑4o. In der GPT‑4o System Card – einer technischen Dokumentation zu Fähigkeiten und Sicherheitsfragen des Modells – bezeichnet OpenAI GPT‑4o als „autoregressive omni model“ und schreibt, dass es Text, Audio, Bilder und Video als Eingaben akzeptieren kann.[21] Das stützt die Aussage, dass OpenAI an Omni-Modellen arbeitet. Es stützt nicht die Aussage, dass GPT‑5.5 „Spud“ existiert.
4o image generation: Bildfähigkeiten sind offiziell Produktbestandteil
Bei der Einführung von 4o image generation erklärt OpenAI, Bildgenerierung solle eine Hauptfähigkeit von Sprachmodellen sein, und verbindet die Funktion mit einem „natively multimodal model“.[15] Für die Bildseite gibt es also offizielle Belege – nur eben unter dem 4o-Dach, nicht unter Spud.
Realtime API: Sprache und multimodale Echtzeit sind produktisiert
Die Realtime API ist OpenAIs Entwicklerschnittstelle für schnelle multimodale Erlebnisse. OpenAI beschreibt außerdem gpt-realtime als weiterentwickeltes Speech-to-Speech-Modell und nennt neue API-Fähigkeiten wie Image Input.[18][
23] Damit sind Sprachagenten und Echtzeitinteraktion offizielle OpenAI-Bausteine. Eine bestätigte Spud-Funktion wird daraus nicht.
Sora: Video bleibt offiziell eine eigene Linie
Bei Video ist die offizielle Spur besonders deutlich: OpenAI verweist in Produktseite, API-Dokumentation und Beispiel-App auf Sora beziehungsweise Sora API.[12][
13][
20] Wer fragt, ob OpenAI Videogenerierung anbietet, kann also klar „ja“ sagen. Wer fragt, ob GPT‑5.5 „Spud“ diese Videofunktionen offiziell übernommen hat, bekommt aus den vorliegenden Quellen kein belastbares „ja“.
Was man derzeit nicht als bestätigt schreiben sollte
- „GPT‑5.5 Spud ist veröffentlicht“: Die auffindbaren Spud-Hinweise stammen vor allem aus Community- und nutzergenerierten Quellen, nicht aus einer offiziellen OpenAI-Ankündigung.[
6][
10][
11]
- „Spud ist fully multimodal oder omnimodal“: Solche Formulierungen erscheinen auf X und in anderen nicht offiziellen Quellen, bleiben aber unbestätigte Behauptungen.[
2][
9][
10]
- „Spud integriert oder ersetzt Sora“: Offizielle OpenAI-Unterlagen führen Videogenerierung weiterhin über Sora, Sora API und die Sora Sample App.[
12][
13][
20]
- „OpenAI hat Spud als einheitliches Modell für Text, Bild, Sprache und Video bestätigt“: Die offiziellen Belege betreffen GPT‑4o, 4o image generation, Realtime API und Sora – nicht ein Modell namens Spud.[
12][
15][
18][
20][
21][
23]
Was das für Entwickler und Produktteams bedeutet
Für Roadmaps, Budgets oder technische Architektur sollte GPT‑5.5 „Spud“ derzeit nicht als gesicherte Abhängigkeit eingeplant werden. Solider ist es, mit den offiziell dokumentierten Linien zu arbeiten: GPT‑4o und 4o image generation für Text- und Bildfunktionen, Realtime API/gpt-realtime für Sprachagenten und niedrige Latenz, Sora beziehungsweise Sora API für Videogenerierung und Remix-Funktionen.[12][
13][
15][
18][
20][
21][
23]
Falls Spud irgendwann ein offizielles Modell wird, wären die verlässlichen Signale klar: eine OpenAI-Ankündigung, eine System Card oder Model Card, ein offizieller Modell-Identifier in der API-Dokumentation sowie konkrete Angaben zu Fähigkeiten und Sicherheit. Genau deshalb lassen sich GPT‑4o, Realtime API und Sora heute prüfen: Für sie gibt es offizielle Produktseiten, technische Dokumente oder Entwicklerdokumentation.[12][
18][
20][
21][
23]
Unterm Strich: OpenAIs multimodale Richtung ist gut belegt. Eine offizielle Veröffentlichung von GPT‑5.5 „Spud“ als vollmodalem Modell ist es nicht. Bis OpenAI selbst eine entsprechende Ankündigung oder Dokumentation vorlegt, gehört Spud in die Kategorie Gerücht – nicht in die Kategorie belastbare Produktentscheidung.[1][
2][
9][
10][
11][
12][
15][
18][
20][
21]




