Wer nach einem klaren Sieger zwischen Claude Opus 4.7 und GPT-5.5 Spud sucht, landet zuerst bei einem anderen Problem: Nicht beide Namen sind gleich gut belegt. Anthropic dokumentiert Claude Opus 4.7 und nennt die API-Kennung claude-opus-4-7 [12][
16]. Die geprüften offiziellen OpenAI-Quellen dokumentieren dagegen GPT-5, GPT-5 mini, GPT-5.2-Codex und Prompt-Hinweise für GPT-5.4 — aber kein öffentliches Modell namens GPT-5.5 Spud [
23][
25][
26][
29][
45].
Das macht die Antwort nüchterner, aber auch klarer: Claude Opus 4.7 lässt sich anhand offizieller Unterlagen einordnen. GPT-5.5 Spud sollte in einem Halluzinationsvergleich aber nicht als Benchmark-Ziel verwendet werden, solange der Name nicht mit einer offiziellen Veröffentlichung, Modellkarte oder API-Dokumentation verbunden ist.
Das Urteil in Kurzform
| Frage | Belegbare Antwort |
|---|---|
| Ist Claude Opus 4.7 verifiziert? | Ja. Anthropic dokumentiert Claude Opus 4.7 und nennt claude-opus-4-7 als nutzbare Claude-API-Kennung [ |
| Ist GPT-5.5 Spud als offizielles OpenAI-Modell verifiziert? | Nicht in den hier geprüften offiziellen OpenAI-Quellen. Dort erscheinen GPT-5, GPT-5 mini, GPT-5.2-Codex und GPT-5.4-Prompt-Hinweise [ |
| Wo taucht Spud in diesem Quellenpaket auf? | In Reddit-Beiträgen und in einem Feature-Request-Thread der OpenAI Developer Community, nicht in Release Notes oder API-Modellunterlagen [ |
| Gibt es einen belastbaren Halluzinations-Benchmark Claude Opus 4.7 vs. GPT-5.5 Spud? | Nein. Es liegt kein gemeinsamer Test mit identischen Aufgaben, identischer Bewertung und einem verifizierten Spud-Modell vor; ein fairer Test müsste Enthaltungen getrennt von Faktenfehlern erfassen [ |
Wichtig: Das beweist nicht, dass ein künftiges oder internes Spud-Modell niemals existieren kann. Es heißt nur, dass die derzeit geprüften Belege keinen offiziellen OpenAI-Modellstatus für GPT-5.5 Spud und keinen seriösen Halluzinationssieger stützen.
Was zu Claude Opus 4.7 tatsächlich belegt ist
Die stärksten Claude-Belege sind Produkt- und API-Unterlagen von Anthropic, kein unabhängiges Cross-Vendor-Leaderboard. Anthropic schreibt, dass Entwickler claude-opus-4-7 über die Claude API nutzen können [16]. In der Dokumentation heißt es außerdem, Claude Opus 4.7 führe sogenannte Task Budgets ein [
12].
Diese Task Budgets sind für Produktteams interessant, weil sie die Steuerung von Aufgaben betreffen. Sie sind aber nicht dasselbe wie ein öffentlicher Benchmark für kalibrierte Unsicherheit. Anders gesagt: Aus der Existenz solcher Steuerungsfunktionen folgt nicht automatisch, wie zuverlässig das Modell bei unsicheren Fakten „Ich weiß es nicht“ sagt.
Es gibt allerdings ein relevantes Signal zur Ehrlichkeit. Mashable berichtete unter Verweis auf Anthropics Opus-4.7-Systemkarte, Claude Opus 4.7 erreiche eine MASK-Ehrlichkeitsrate von 91,7 % und halluziniere beziehungsweise zeige Gefälligkeitsverhalten seltener als frühere Anthropic-Modelle und andere Frontier-Modelle [14]. Das ist ein wichtiger Hinweis — beantwortet aber nicht die Spud-Frage, weil es kein direkt vergleichbarer Test gegen ein offiziell verifiziertes GPT-5.5-Spud-Modell ist.
Was OpenAI-Quellen stattdessen zeigen
Die geprüften OpenAI-Unterlagen belegen mehrere GPT-5-Familienbezüge: GPT-5, GPT-5 mini, GPT-5.2-Codex und Prompt-Hinweise für GPT-5.4 [23][
25][
26][
29][
45]. Die Spur zu „Spud“ führt dagegen zu Reddit-Posts und zu einem Feature-Request in der OpenAI Developer Community [
7][
8][
10][
28]. Solche Community-Hinweise können für Gerüchte und Nutzererwartungen interessant sein. Sie ersetzen aber keine offizielle Modellseite, keine Modellkarte, keine API-Kennung und keine Veröffentlichung.
Für die eigentliche Halluzinationsfrage ist OpenAIs Erklärung zu Halluzinationen hilfreicher als die Spud-Gerüchte. OpenAI argumentiert, dass gängige Trainings- und Bewertungsverfahren Raten belohnen können, statt Unsicherheit anzuerkennen; Modelle sollten daher Unsicherheit anzeigen oder Rückfragen stellen, statt selbstbewusst falsche Informationen zu liefern [3].
OpenAIs SimpleQA-Beispiel zeigt, warum reine Genauigkeit in die Irre führen kann: gpt-5-thinking-mini wird dort mit 52 % Enthaltung, 22 % Genauigkeit und 26 % Fehlern gelistet, während o4-mini bei 1 % Enthaltung, 24 % Genauigkeit und 75 % Fehlern steht [3]. Das erste Modell antwortet also seltener, liegt in diesem Beispiel aber deutlich seltener falsch [
3]. Für Anwendungen mit hohem Risiko kann genau diese Differenz wichtiger sein als ein Modell, das auf jede Frage souverän klingt.
Der eigentliche Maßstab: kalibrierte Unsicherheit
Halluzinationskontrolle bedeutet nicht einfach, möglichst oft abzulehnen. Ein nützliches Modell sollte antworten, wenn die Faktenlage stark ist, nachfragen, wenn die Aufgabe unklar formuliert ist, und sich enthalten, wenn eine Aussage nicht belastbar gestützt werden kann. In der Forschung wird diese Fähigkeit oft als kalibrierte Unsicherheit oder als Abstention-Verhalten beschrieben.
Die Studienlage stützt diesen Blick, allerdings mit Einschränkungen. Eine Studie aus dem Jahr 2024 berichtet, dass unsicherheitsbasierte Enthaltung in Frage-Antwort-Szenarien Korrektheit, Halluzinationen und Sicherheit verbessert [1][
4]. I-CALM beschreibt epistemische Enthaltung als das bewusste Nichtantworten bei faktischen Fragen mit überprüfbarer Antwort und weist darauf hin, dass aktuelle LLMs weiterhin daran scheitern können, sich dann zu enthalten, wenn sie es sollten [
54]. Arbeiten zu verhaltenskalibriertem Reinforcement Learning untersuchen ebenfalls, wie Modelle durch Enthaltung Unsicherheit eingestehen können [
61].
Auch breitere Übersichten behandeln Unsicherheitsquantifizierung als Werkzeug zur Halluzinationserkennung und beschreiben kalibrierte Unsicherheit als hilfreich, um zu entscheiden, wann man einer Modellantwort vertrauen, sie überprüfen oder an Menschen weitergeben sollte [53][
55]. Der Haken: Enthaltung muss kalibriert sein. Ein Modell, das ständig „weiß ich nicht“ sagt, ist vielleicht vorsichtig, aber wenig hilfreich. Ein Modell, das nie abwinkt, wirkt produktiv, kann aber riskant sein.
Wie ein fairer Claude-gegen-OpenAI-Test aussehen müsste
- Offizielle Modell-IDs verwenden. Für Claude wäre
claude-opus-4-7der belegte Kandidat; auf OpenAI-Seite sollte ein dokumentiertes Modell wie GPT-5 oder GPT-5 mini verwendet werden, nicht ein unverifiziertes Spud-Label [16][
23][
25][
29].
- Gemischte Testaufgaben bauen. Der Test sollte beantwortbare Fragen, unterbestimmte Aufgaben und unbeantwortbare Fragen enthalten. Forschung zu Enthaltung untersucht gerade den Nutzen, bei hoher Unsicherheit oder nicht sicher beantwortbaren Fragen nicht zu raten [
1][
4].
- Enthaltungen separat bewerten. Gezählt werden sollten richtige Antworten, falsche Antworten, korrekte Enthaltungen und falsche Enthaltungen. Die Abstention-Übersicht beschreibt dafür eigene Kennzahlen wie Abstention Accuracy, Precision und Recall [
68].
- Faktische Unsicherheit von Sicherheitsverweigerung trennen. Eine gefährliche Anleitung abzulehnen ist nicht dasselbe wie bei einer ungeklärten Faktenfrage fehlende Evidenz zu benennen. I-CALM fokussiert ausdrücklich epistemische Enthaltung bei faktischen Fragen mit überprüfbaren Antworten [
54].
- Genauigkeit, Fehlerquote und Enthaltungsrate gemeinsam berichten. OpenAIs SimpleQA-Beispiel zeigt, dass ein Modell mit deutlich höherer Enthaltungsrate eine ähnliche Genauigkeit, aber eine viel niedrigere Fehlerquote haben kann [
3].
- Die Testumgebung konstant halten. Retrieval, Webzugriff, Tools, Kontextlänge und Systemanweisungen können das Ergebnis verändern. Wer einem Modell zusätzliche Belege gibt und dem anderen nicht, testet am Ende das Setup — nicht nur das Modell.
FAQ
Ist GPT-5.5 Spud real?
Nicht als offizielles OpenAI-Modell in den hier geprüften Belegen. Die offiziellen OpenAI-Quellen nennen GPT-5, GPT-5 mini, GPT-5.2-Codex und GPT-5.4-Prompt-Hinweise; Spud erscheint in Reddit-Beiträgen und einem Community-Feature-Request [7][
8][
10][
23][
25][
26][
28][
29][
45].
Halluziniert Claude Opus 4.7 weniger als GPT-5.5 Spud?
Das lässt sich aus diesen Quellen nicht seriös beantworten. Claude Opus 4.7 ist dokumentiert [12][
16], und es gibt einen Sekundärbericht über eine MASK-Ehrlichkeitsrate von 91,7 % [
14]. Gleichzeitig fehlt ein verifiziertes GPT-5.5-Spud-Ziel sowie ein gemeinsamer Benchmark mit denselben Aufgaben und Bewertungsregeln [
7][
8][
10][
28][
68].
Was sollten Unternehmen oder Entwickler stattdessen vergleichen?
Sinnvoll ist ein Vergleich von Claude Opus 4.7 mit offiziell dokumentierten OpenAI-Modellen unter identischen Aufgaben, Tools, Prompts und Bewertungsregeln. Entscheidend ist nicht nur die Trefferquote, sondern die Kombination aus Genauigkeit, Fehlerquote und richtigem Enthaltungsverhalten [3][
68].
Fazit
Aus der aktuellen Beleglage folgt weder „Claude gewinnt“ noch „Spud gewinnt“. Belastbar ist nur diese Schlussfolgerung: Claude Opus 4.7 ist offiziell dokumentiert; GPT-5.5 Spud ist in den geprüften offiziellen OpenAI-Materialien nicht verifiziert; und gute Halluzinationskontrolle sollte kalibrierte Unsicherheit belohnen — also auch die korrekte Enthaltung, wenn eine Behauptung nicht ausreichend gestützt werden kann [3][
12][
16][
23][
25][
29][
45][
68].




