Modellvergleiche klingen oft eindeutiger, als sie bei genauer Prüfung sind. Gerade bei KI-Recherche zählt nicht nur, welches Modell auf dem Papier „stärker“ ist. Entscheidend ist, ob sich wichtige Aussagen später bis zur Quelle zurückverfolgen lassen.
Bei den hier geprüften Dokumenten ist deshalb die ehrliche Antwort: Es gibt keinen verifizierbaren Gesamtsieger zwischen Claude Opus 4.7 und GPT-5.5 Spud. Anthropic beschreibt Claude Opus 4.7 als Modell der neuesten Claude-Generation und als sein leistungsfähigstes allgemein verfügbares Modell für komplexe Aufgaben. Der einschlägige OpenAI-Leitfaden in diesem Quellenpaket bezieht sich jedoch auf GPT-5.4 – nicht auf GPT-5.5 Spud [53][
65][
75].
Was sich belegen lässt, ist enger, aber praktischer: OpenAI dokumentiert klare Anforderungen an sichtbare Web-Zitate in Deep Research, während Anthropic detailliert beschreibt, wie Claude bereitgestellte Dokumente zitieren kann, wenn diese Dokumente übergeben und Zitate aktiviert werden [23][
77].
Die kurze Antwort
Ein direkter, quellenbasierter Vergleich „Claude Opus 4.7 schlägt GPT-5.5 Spud“ oder umgekehrt ist aus diesen Unterlagen nicht belastbar. Für Unternehmen, Entwicklerteams und Forschende ist die bessere Frage: Kann der gesamte Workflow eine Aussage bis zum überprüfbaren Beleg zurückführen?
Dazu gehören mehr als hübsch formatierte Fußnoten. Ein belastbarer Recherche-Workflow sollte zeigen können, welche Webseite, Datei, Textstelle, PDF-Seite oder welcher abgerufene Abschnitt eine konkrete Aussage stützt. Nur dann kann ein Mensch prüfen, ob die KI richtig zusammenfasst – oder ob sie eine Quelle überdehnt.
Drei Dinge, die oft verwechselt werden
Bei „Provenienz“ – also der Herkunft und Nachvollziehbarkeit von Informationen – werden häufig drei Ebenen vermischt:
- Zitate: sichtbare Verweise von einer Aussage auf eine Quelle.
- Quellensicherung: Speicherung der Webseiten, Dokumente, Dateien, Chunks oder sonstigen Artefakte, aus denen eine Antwort erzeugt wurde.
- Reasoning-Artefakte: Denkzusammenfassungen, Scratchpad-ähnliche Inhalte oder interne Steuerungen, die erklären können, wie ein Modell arbeitet – aber nicht belegen, woher eine Tatsachenbehauptung stammt.
Zitate sind die sichtbare Oberfläche. Für ein Audit reicht das allein nicht. Stark wird ein System erst, wenn Prüferinnen und Prüfer von einer Behauptung zur konkreten Fundstelle springen können.
OpenAI: starke Belege für sichtbare Web-Zitate
Die klarste OpenAI-Aussage zur Herkunftssicherung steht in den Deep-Research-Dokumenten: Wenn Web-Ergebnisse oder Informationen aus Web-Ergebnissen Endnutzerinnen und Endnutzer erreichen, sollen Inline-Zitate deutlich sichtbar und anklickbar sein [23]. Das ist wichtig, weil ein Quellenverweis in versteckten Metadaten im Alltag kaum hilft. Er muss dort stehen, wo die Aussage steht.
OpenAI liefert außerdem Hinweise zur Formatierung von Zitaten und dazu, wie citable material – also zitierfähiges Material – vorbereitet und das Modell zu wirksamer Zitierformatierung angewiesen werden kann [22]. Ein Beispiel zur Deep Research API beschreibt, dass Antworten eine strukturierte Endfassung mit Inline-Zitaten, Zusammenfassungen von Reasoning-Schritten und Quelleninformationen enthalten [
24]. Im Help Center heißt es zudem, Deep-Research-Ausgaben enthielten Zitate oder Quellenlinks, damit Nutzer Informationen überprüfen können [
30].
Das trägt eine begrenzte, aber wichtige Schlussfolgerung: In den geprüften Dokumenten ist OpenAI besonders explizit bei der Darstellung von Zitaten in Web-Recherche-Workflows. Es beweist aber nicht, dass jedes einzelne Zitat korrekt ist. Und es belegt nichts Modellspezifisches zu GPT-5.5 Spud.
Anthropic: starke Belege für dokumentengestützte Zitate
Anthropic ist in diesem Material besonders aussagekräftig bei zwei Punkten: der Einordnung von Claude Opus 4.7 und den Mechanismen für dokumentengestützte Zitate.
Claude Opus 4.7 wird in Anthropic-Dokumenten als Teil der neuesten Claude-Generation beschrieben. Für besonders komplexe Aufgaben empfiehlt Anthropic Claude Opus 4.7 als sein leistungsfähigstes allgemein verfügbares Modell [53][
65].
Für Nachvollziehbarkeit ist vor allem die Citations-Dokumentation entscheidend. Dort heißt es, Claude könne bei Fragen zu Dokumenten detaillierte Zitate liefern, die helfen, Informationsquellen in Antworten nachzuverfolgen und zu prüfen – vorausgesetzt, Dokumente werden bereitgestellt und Zitate aktiviert [77]. Anthropic beschreibt auch die Granularität: Reine Textdokumente und PDFs werden standardmäßig automatisch in Sätze aufgeteilt; wer feinere Kontrolle braucht, kann Custom-Content-Dokumente verwenden [
77].
Zusätzlich nennt die PDF-Dokumentation einen provenance-relevanten Punkt: Visuelle PDF-Analyse in der Converse API setzt aktivierte Zitate voraus [58]. Die Files API wiederum erlaubt Entwicklern, Dateien für die Claude API hochzuladen und zu verwalten, ohne denselben Inhalt bei jeder Anfrage erneut übertragen zu müssen [
52]. Das allein beweist keine Zitiergenauigkeit. In Kombination mit gespeicherten Quellen und Aussage-zu-Beleg-Zitaten kann es aber eine bessere Prüfbarkeit unterstützen.
Scratchpads sind keine Quellen
Der größte Denkfehler bei KI-Recherche ist, interne Denkspuren als Belege zu behandeln. Ein Scratchpad, eine Reasoning-Zusammenfassung oder ein „Thinking Block“ kann für die Steuerung eines Workflows nützlich sein. Es ist aber nicht dasselbe wie eine überprüfbare Quelle.
OpenAI schreibt in seinen Reasoning-Best-Practices, dass Reasoning-Modelle intern schlussfolgern, und rät Entwicklern davon ab, sie zum Schritt-für-Schritt-Denken oder zum Offenlegen der Chain of Thought aufzufordern [42]. Der Leitfaden zu Reasoning-Modellen konzentriert sich stattdessen auf Steuerungen wie Reasoning Effort, Reasoning Tokens und das Beibehalten von Reasoning State über mehrere Runden hinweg [
43].
Anthropic verwendet in seinen Dokumenten mehr sichtbare Begriffe rund um Denkmechaniken. Die Prompt-Caching-Dokumentation beschreibt ein besonderes Verhalten von Thinking Blocks, wenn Extended Thinking mit Prompt Caching kombiniert wird [55]. Die Extended-Thinking-Dokumentation unterscheidet bei Claude 4 und späteren Modellen zwischen vollständigen Thinking Tokens und zusammengefasster Ausgabe [
76]. Release Notes erwähnen ein Display-Feld, mit dem Thinking-Inhalte in Antworten ausgelassen werden können, und Claude-Code-Dokumente sagen, dass das Wort
ultrathink in einem Skill Extended Thinking für diesen Skill aktiviert [66][
63].
Diese Funktionen können komplexe Agenten- oder Analyse-Workflows verbessern. Als Herkunftsnachweis taugen sie nur begrenzt. Eine Denkspur zeigt nicht automatisch, dass eine Tatsachenbehauptung aus genau einer bestimmten URL, Datei oder Textstelle stammt.
Checkliste für prüfbare KI-Recherche
Wer ein KI-System für Recherche, Due Diligence, Marktanalysen oder interne Wissensarbeit bewertet, sollte daher nicht beim Modellnamen stehen bleiben. Wichtiger ist, ob der Workflow einer Prüfung standhält.
- Sichtbare Zitate auf Aussageebene. Bei Web-Informationen verlangt OpenAI Deep Research sichtbar platzierte und anklickbare Inline-Zitate [
23]. Bei Claude-Dokumenten-Workflows beschreibt Anthropic Zitate, wenn Dokumente bereitgestellt und Zitate aktiviert werden [
77].
- Prüfbare Quellartefakte. Speichern Sie nicht nur die Endantwort, sondern auch die Materialien dahinter. OpenAIs Deep-Research-Beispiel verweist auf Quelleninformationen; Anthropics Files API unterstützt wiederverwendbare Datei-Eingaben für Claude-API-Workflows [
24][
52].
- Ausreichende Zitiergenauigkeit. Ein hilfreiches Zitat sollte auf den relevanten Beleg zeigen, nicht nur auf einen großen Quellentopf. Anthropic dokumentiert standardmäßiges Satz-Chunking für Text- und PDF-Dokumente sowie Custom Content für feinere Kontrolle [
77]. OpenAI gibt separat Hinweise zur Vorbereitung zitierfähigen Materials und zur Zitierformatierung [
22].
- Reasoning sauber von Belegen trennen. Reasoning-Kontrollen können die Arbeitsweise verbessern. OpenAI und Anthropic beschreiben sie aber als Denk- oder Reasoning-Mechaniken, nicht als Ersatz für quellenverlinkte Tatsachenbehauptungen [
42][
43][
55][
76].
- Wichtige Aussagen menschlich prüfen. Anbieterunterlagen beschreiben Funktionen und Darstellungsregeln. Sie garantieren nicht unabhängig, dass jedes Zitat korrekt gesetzt ist. Bei heiklen Entscheidungen bleibt der Abgleich mit dem Originalmaterial Pflicht.
Fazit
Die geprüften Dokumente tragen keine Rangliste. Sie tragen eine differenzierte Einordnung.
OpenAI ist in diesem Quellenpaket besser belegt, wenn es um sichtbare Web-Zitate für Nutzerinnen und Nutzer geht: Deep Research fordert deutlich sichtbare, anklickbare Inline-Zitate, sobald Web-Informationen angezeigt werden [23]. Anthropic ist hier besser belegt, wenn es um dokumentengestützte Claude-Zitate geht: Die Dokumentation beschreibt Zitate auf bereitgestellten Dokumenten und Granularitätskontrolle über Satz-Chunking und Custom Content [
77].
Claude Opus 4.7 ist als Anthropics leistungsfähigstes allgemein verfügbares Modell für komplexe Aufgaben dokumentiert. Für OpenAI liegt hier jedoch ein Modellleitfaden zu GPT-5.4 vor, nicht zu GPT-5.5 Spud [53][
65][
75]. Wer wirklich prüfbare KI-Recherche will, sollte deshalb zuerst Quellenablage, Zitiergranularität und Validierungsprozesse vergleichen – und erst danach Modellnamen.




