Der Hype um GPT Image 2 läuft den belastbaren Belegen voraus. Aus den geprüften Quellen ergibt sich nur eine engere Aussage: OpenAI dokumentiert GPT Image 1.5 sowie Workflows für Bildgenerierung und Bildbearbeitung. Das Material zu GPT Image 2 stammt dagegen aus Drittquellen, Leaks, Erwartungsartikeln oder kommerziellen Seiten. Keine der geprüften Quellen liefert einen kontrollierten Fotorealismus-Benchmark GPT Image 2 gegen GPT Image 1.5.[1][
11][
12][
19][
20][
21][
22][
24]
Kurzurteil: nicht belegt
Die Quellenlage reicht nicht aus, um zu sagen: GPT Image 2 ist fotorealistischer als GPT Image 1.5. Das Urteil lautet daher: nicht belegt. Das ist ausdrücklich kein Gegenbeweis und auch keine Aussage, GPT Image 2 sei schlechter.
Was fehlt, ist ein direkter, reproduzierbarer Vergleich: identische Prompts, vergleichbare Einstellungen, mehrere Ausgaben pro Prompt, eine Blindbewertung und ein Bewertungsschema, das wirklich auf Fotorealismus zielt. Die OpenAI-Quellen dokumentieren GPT Image 1.5 und API-Workflows, aber sie enthalten keinen offiziellen GPT-Image-2-Fotorealismusvergleich.[1][
11][
12][
15][
16][
17]
Was die OpenAI-Unterlagen tatsächlich zeigen
Die Modellseite von OpenAI beschreibt GPT Image 1.5 als „state-of-the-art image generation model“ und als OpenAIs neuestes Bildgenerierungsmodell mit besserem Befolgen von Anweisungen und Prompts.[1]
Der OpenAI-Leitfaden zur Bildgenerierung beschreibt zwei zentrale Workflows: Bilder aus Textprompts erzeugen und bestehende Bilder bearbeiten.[12] Die API-Referenz für Bildbearbeitung nennt außerdem Eingaben und Parameter wie Modell, Anzahl der Bilder, Qualität und Ausgabeformat für GPT-Bildmodell-Workflows.[
11] Cookbook- und Prompting-Materialien von OpenAI zeigen praktische GPT-Image-Abläufe, darunter maskierte Edits und Prompting-Beispiele für GPT Image 1.5.[
15][
16][
17]
Das belegt nützliche Produktfunktionen. Es belegt aber nicht, dass GPT Image 2 fotorealistischer ist als GPT Image 1.5. Dafür fehlen in den geprüften OpenAI-Quellen eine GPT-Image-2-Modellseite, ein offizieller GPT-Image-2-Benchmark oder eine direkte Realismusstudie zwischen beiden Modellen.[1][
11][
12][
15][
16][
17]
Warum die GPT-Image-2-Aussagen noch nicht reichen
Die geprüften GPT-Image-2-Seiten liefern nicht die Art von Nachweis, die für eine belastbare Realismusbehauptung nötig wäre.
Eine Seite rahmt GPT Image 2 über einen Leak und Workflow-Hinweise.[19] Eine andere spricht über erwartete Upgrades, darunter Verbesserungen bei Textdarstellung und Kamerakontrolle.[
20] Ein MindStudio-Beitrag sagt, GPT Image 2 scheine bei der Textdarstellung vorn zu liegen – das ist aber eine deutlich engere Aussage als Fotorealismus.[
21] Ein JXP-Artikel macht stärkere Behauptungen, darunter „99%+“ Textgenauigkeit, erwartete native 4K-Ausgabe und einen deutlichen Sprung beim Fotorealismus; der vorliegende Ausschnitt enthält jedoch keine reproduzierbare Bewertungsmethode und keinen direkten Vergleich mit GPT Image 1.5.[
22] Higgsfield vermarktet GPT Image 2 rund um kommerzielle Bilderzeugung und „perfect text“.[
24]
Das ist entscheidend: Lesbarer Text, saubere Prompt-Befolgung, hohe Auflösung und kommerzielle Nutzbarkeit sind nicht dasselbe wie fotografischer Realismus. Ein Modell kann bei Typografie oder Anweisungen besser sein, ohne messbar realistischere Fotos zu erzeugen. Die geprüften GPT-Image-2-Quellen nennen keine Promptsets, Sample-Zahlen, Generierungseinstellungen, Blindtest-Methoden oder Fotorealismus-Scores gegen GPT Image 1.5.[19][
20][
21][
22][
24]
Das stärkste Benchmark-Signal mahnt eher zur Vorsicht
Die nützlichste leaderboard-artige Quelle im geprüften Material ist Artificial Analysis. Im Ausschnitt zur Text to Image Arena steht, dass GPT Image 1.5 (high) derzeit mit einem Elo-Wert von 1274 führt. Die Rangliste basiert auf blinden Nutzerstimmen; ein höherer Elo-Wert bedeutet, dass ein Modell häufiger bevorzugt wird.[33]
Das ist ein relevantes Signal für Nutzerpräferenz innerhalb dieser Arena. Es beweist aber nicht die konkrete Behauptung zu GPT Image 2. Der vorliegende Artificial-Analysis-Ausschnitt ist eine allgemeine Text-zu-Bild-Präferenzrangliste, kein Fotorealismus-only-Benchmark GPT Image 2 gegen GPT Image 1.5.[33]
Evidenzcheck
| Quelle | Was sie stützt | Was sie nicht beweist |
|---|---|---|
| OpenAI-Modellseite zu GPT Image 1.5 | GPT Image 1.5 ist offiziell als State-of-the-Art-Bildgenerierungsmodell mit besserer Anweisungs- und Prompt-Befolgung dokumentiert.[ | Sie vergleicht GPT Image 1.5 nicht mit GPT Image 2.[ |
| OpenAI-Dokumentation zu Bildgenerierung und API | OpenAI unterstützt Bildgenerierung und Bildbearbeitung; API-Material nennt Parameter wie Modell, Qualität und Ausgabeformat.[ | Workflow-Dokumentation ist kein Fotorealismus-Benchmark.[ |
| OpenAI-Cookbook und Prompting-Guides | Die Materialien zeigen GPT-Image-Nutzungsmuster, Masken und GPT-Image-1.5-Prompting-Beispiele.[ | Sie liefern keinen direkten GPT-Image-2-Realismustest.[ |
| Drittquellen zu GPT Image 2 | Sie behandeln Leaks, erwartete Upgrades, Textdarstellung, kommerziellen Zugang und breite Leistungsbehauptungen.[ | Die geprüften Ausschnitte liefern keine kontrollierte Fotorealismusbewertung GPT Image 2 gegen GPT Image 1.5.[ |
| Artificial Analysis Text to Image Arena | GPT Image 1.5 (high) wird mit Elo 1274 auf Platz eins einer Blindvoting-Präferenzrangliste geführt.[ | Der Ausschnitt zeigt keinen Fotorealismus-only-Vergleich mit GPT Image 2.[ |
Was als echter Nachweis zählen würde
Ein entscheidungsreifer Test GPT Image 2 gegen GPT Image 1.5 müsste Fotorealismus sauber von anderen Stärken trennen. Mindestens nötig wären:
- Dasselbe Promptset für beide Modelle. Es sollte Menschen, Produkte, Innenräume, Außenaufnahmen, schwaches Licht, Reflexionen, Materialien und schwierige Randfälle abdecken.
- Vergleichbare Generierungseinstellungen. Bei API-Tests sollten Modell, Qualität, Ausgabeformat und weitere relevante Parameter dokumentiert werden.[
11]
- Mehrere Ausgaben pro Prompt. Ein einzelnes besonders gutes oder schlechtes Bild sollte nicht über den Vergleich entscheiden.
- Blindbewertung. Bewertende sollten nicht wissen, welches Modell welches Bild erzeugt hat. Artificial Analysis nutzt für seine Arena blinde Nutzerstimmen – ein sinnvolles Muster, auch wenn die vorliegende Rangliste diese konkrete Fotorealismusfrage nicht beantwortet.[
33]
- Eine Fotorealismus-Rubrik. Licht, Schatten, Objektivwirkung, Haut- und Materialtexturen, physikalische Plausibilität, Reflexionen und sichtbare Artefakte sollten getrennt von Typografie oder Prompt-Treue bewertet werden.
- Öffentliche Beispiele inklusive Fehlschläge. Kuratierte Best-of-Galerien reichen nicht aus, um einen breiten Modellvorteil zu belegen.
Praktische Konsequenz für Teams
Wer Bildmodelle für Produktion, Kampagnen, Produktseiten oder interne Designprozesse bewertet, sollte GPT-Image-2-Fotorealismusclaims vorerst als Hypothesen behandeln. Die OpenAI-Quellen liefern eine dokumentierte Basis für GPT Image 1.5 und beschreiben Generierungs- sowie Editier-Workflows; sie beweisen aber kein Realismus-Upgrade durch GPT Image 2.[1][
11][
12]
Wenn beide Modelle im gleichen Workflow verfügbar sind, lohnt sich ein eigener Test mit den eigenen Prompts. Für Produktionsmigrationen sollte ein Team nicht allein deshalb wechseln, weil eine Drittseite einen Realismus-Sprung behauptet. Und in Marketingtexten sollte man GPT Image 2 nicht als fotorealistischer bewerben, solange kein transparenter Benchmark genau diese Aussage stützt.[19][
20][
21][
22][
24]
Fazit
GPT Image 2 kann sich künftig als stärker erweisen. Die geprüften Belege zeigen das aber noch nicht. Die belastbare Schlussfolgerung ist enger: GPT Image 1.5 ist offiziell von OpenAI dokumentiert, Artificial Analysis führt GPT Image 1.5 (high) in seiner Blindvoting-Text-to-Image-Arena mit Elo 1274 auf Platz eins, und keine geprüfte Quelle belegt einen Fotorealismusvorteil von GPT Image 2 gegenüber GPT Image 1.5.[1][
33]




