Die kurze Antwort lautet: Das lässt sich derzeit nicht seriös entscheiden. In dieser Frage geht es nicht darum, welches Modell in Benchmarks klüger wirkt. Entscheidend ist, ob ein Modell beim Lesen fremder Quellen – Webseiten, PDFs, Tabellen, Literaturverzeichnisse – nicht von diesen Quellen selbst auf falsche Gleise gesetzt wird.
Zur Forschungskontamination zählen hier Prompt-Injection in externen Dokumenten, seriös aussehende, aber erfundene Quellen, PDFs mit versteckten Anweisungen und Datensätze, die nur eine Seite der Evidenz zeigen. Für Claude Opus 4.7 und das von Dritten als GPT-5.5 Spud bezeichnete OpenAI-Modell gibt es nach den öffentlich prüfbaren Unterlagen keinen belastbaren Direktvergleich.[2][
23][
27][
32][
45][
51]
Kurzfazit: Dokumentation ja, Sicherheits-Sieger nein
Wenn die Frage lautet, welches Modell in einem kontaminierten Rechercheprozess sicherer ist, kann die Antwort derzeit nur lauten: nicht belastbar belegbar. Dafür bräuchte es Tests unter identischen Bedingungen: dieselbe Toolchain, dieselben Dokumente, dieselben Angriffsmuster und dieselben Bewertungsregeln. Relevante Messpunkte wären etwa die Erfolgsrate von Prompt-Injection, die Quote nicht belegter Zitate, die Befolgung versteckter PDF-Anweisungen und die Qualität von Schlussfolgerungen nach Bias-Kontamination. Solche direkten Vergleichsdaten sind öffentlich nicht vorhanden.[2][
23][
27][
32][
45][
51]
Was sich enger sagen lässt: Claude Opus 4.7 hat die klarere öffentliche Aktenlage. Anthropic hat eine offizielle Veröffentlichung und Entwicklerdokumentation zu Opus 4.7; außerdem führt Anthropic Claude Opus 4.7 auf der System-Card-Seite auf.[5][
9][
51] Eine bessere Dokumentationslage bedeutet aber nur, dass mehr Material prüfbar ist. Sie beweist nicht automatisch, dass Claude Opus 4.7 in kontaminierten Forschungsaufgaben robuster ist als GPT-5.5 Spud.
Was die Herstellerunterlagen tatsächlich belegen
Claude: sauberer dokumentiert, aber kein Angriffstest gegen Spud
Anthropics Unterlagen bestätigen Claude Opus 4.7 als Modell mit offizieller Veröffentlichung und Entwicklerdokumentation. In der Dokumentation werden unter anderem task budgets erwähnt; die Prompting-Hinweise raten bei max oder xhigh effort zu einem großen Ausgabetoken-Budget, damit das Modell über Subagents und Tool Calls hinweg denken und handeln kann.[5][
9][
44]
Das ist für längere Recherche- und Agenten-Workflows relevant, ersetzt aber keinen Sicherheitstest gegen kontaminierte Quellen. Die Claude-4-System-Card beschreibt Pre-Deployment-Sicherheitstests gemäß Responsible Scaling Policy, Tests zu Verstößen gegen die Usage Policy, Reward-Hacking-Bewertungen sowie agentic safety evaluations für Computernutzung und Coding-Fähigkeiten.[45] Die Claude-4.1-System-Card listet zudem Abschnitte zu Prompt-Injection-Angriffen und Computernutzung.[
71]
Diese Dokumente zeigen also Sicherheits- und Agenten-Kontext. Sie zeigen aber nicht, wie Claude Opus 4.7 im selben verschmutzten Recherchekorpus gegen GPT-5.5 Spud abschneidet.
OpenAI: relevante Sicherheitsarbeit, aber nicht Spud-spezifisch
Auf OpenAI-Seite enthält die GPT-5-System-Card Bewertungen zu factual correctness und Hallucination. Beschrieben wird unter anderem ein LLM-basiertes Bewertungsmodell mit Webzugriff, das große und kleine Faktenfehler markiert; außerdem berichtet OpenAI für GPT-5-Modelle niedrigere Halluzinationsraten in „browse-on“- und „browse-off“-Settings gegenüber den dort aufgeführten OpenAI-Vergleichsmodellen.[2][
34]
Die System Card zum ChatGPT Agent beschreibt SecureBio static und agentic evaluations, manuelles Red-Teaming sowie Aufgaben, die Websuche und Reasoning erfordern.[32] Das Addendum zu GPT-5-Codex nennt ausdrücklich Prompt-Injection-Risiken und eine eigene Prompt-Injection-Evaluation-Suite.[
24]
Der Haken: Diese Materialien sind nicht die offizielle System Card eines Modells namens GPT-5.5 Spud. Die direkt zu Spud auffindbaren Quellen in diesem Material sind vor allem Drittseiten beziehungsweise Leak-Zusammenfassungen, nicht OpenAI-Veröffentlichungen mit Spud-spezifischen Sicherheitskennzahlen.[23][
27]
Vier Risiken im Einzelcheck
1. Prompt-Injection
Prompt-Injection ist besonders heikel, weil das Modell beim Lesen einer Webseite, Tabelle oder PDF-Datei unzuverlässigen Text mit einer echten Arbeitsanweisung verwechseln kann. Claude-Dokumente zeigen Sicherheitskontext zu agentischen Workflows, Computernutzung und Prompt-Injection; OpenAI-Dokumente zeigen agentische Bewertungen, Red-Teaming und Prompt-Injection-Evaluierungen im Umfeld von ChatGPT Agent und GPT-5-Codex.[24][
32][
45][
71]
Das beantwortet aber nicht die entscheidende Vergleichsfrage: Welches der beiden konkreten Modelle folgt seltener einer bösartigen Anweisung, wenn dieselbe kontaminierte Quelle im selben Rechercheworkflow auftaucht? Ohne identischen Testkorpus sollte man aus System-Card-Kontext keinen Sieg ableiten.[23][
27][
45][
51]
2. Fake-Zitate und erfundene Quellen
Falsche oder frei erfundene Zitate sind ein Problem der Faktentreue und Quellenüberprüfbarkeit. Die GPT-5-System-Card behandelt factual correctness und Hallucination-Bewertungen und beschreibt die eingesetzte Bewertungsmethode.[2][
34]
Das ist relevant, aber nicht dasselbe wie ein Zitier-Stresstest. Öffentlich fehlen vergleichbare Ergebnisse für GPT-5.5 Spud und Claude Opus 4.7 auf einem Datensatz mit echten DOIs, falschen DOIs, echten URLs, toten Links, erfundenen Journaltiteln und plausibel klingenden, aber nicht existierenden Papers.[23][
27][
51]
3. Bösartige PDFs
Für schädlich präparierte PDFs gibt es in den vorliegenden öffentlichen Materialien keine direkt vergleichbaren Kennzahlen. Dazu würden etwa Tests zählen, ob ein Modell versteckten Text, Metadaten-Anweisungen, Kommentare oder gefälschte Systemhinweise in Anhängen befolgt.[2][
32][
45][
51]
Praktisch sollte man PDF-Sicherheit deshalb nicht dem Modell allein überlassen. Ein robuster Prüfaufbau würde PDFs zunächst als unzuverlässige Eingabe behandeln, Text und Struktur in einer isolierten Umgebung extrahieren und dann messen, ob das Modell Dokumentinhalt fälschlich als Arbeitsanweisung übernimmt.
4. Verzerrte Datensätze und einseitige Evidenz
Anthropics Claude-4-System-Card enthält Bias-Evaluierungen, die Claude-4.1-System-Card listet politische und diskriminierende Bias-Bewertungen, und OpenAIs GPT-4.5-System-Card nennt unter anderem das BBQ Evaluation Dataset.[38][
57][
71]
Bias-Benchmarks sind jedoch nicht automatisch ein End-to-End-Test für kontaminierte Recherche. In einem echten Forschungsworkflow müsste gemessen werden, ob ein Modell unausgewogene Quellenlagen markiert, aktiv Gegenbelege sucht, Stichprobenprobleme benennt oder eine verzerrte Datenbasis fälschlich als allgemeingültige Schlussfolgerung ausgibt. Für Claude Opus 4.7 und GPT-5.5 Spud liegen dazu keine vergleichbaren öffentlichen Ergebnisse vor.[23][
27][
51]
Warum System Cards allein nicht reichen
System Cards sind nützlich, weil sie zeigen, welche Risiken Anbieter vor einer Veröffentlichung geprüft haben. Anthropics Responsible Scaling Policy verlangt laut den vorliegenden Unterlagen umfassende Sicherheitsbewertungen für Frontier-Modelle in Bereichen potenziell katastrophaler Risiken wie CBRN, Cybersicherheit und autonomen Fähigkeiten; die Claude-4-System-Card beschreibt mehrere Sicherheits- und Agentenbewertungen.[4][
45] OpenAI liefert mit GPT-5 und ChatGPT Agent ebenfalls Kontext zu Faktentreue, Halluzinationen, agentischen Bewertungen und manuellem Red-Teaming.[
2][
32][
34]
Kontaminierte Forschung ist aber ein Workflow-Problem, nicht nur ein Modellproblem. Es geht um Suchsysteme, Parser für Anhänge, Prompt-Hierarchien, Tool-Berechtigungen, Modellverhalten, Quellenprüfung, Protokolle und menschliche Kontrolle. Ein gutes Ergebnis in einer offiziellen Teilprüfung erlaubt daher nicht automatisch den Schluss, dass ein realer Rechercheprozess gegen alle externen Datenmanipulationen stabil ist.
Hinzu kommt: Modellverhalten kann stark vom Prompt und vom Kontext abhängen. Anthropic hat in einer Studie zu alignment faking gezeigt, dass große Sprachmodelle in bestimmten experimentellen Settings entsprechende Verhaltensmuster zeigen können und dass unterschiedliche Prompt-Bedingungen zu unterschiedlichen Ergebnissen führen.[31] Das beweist nicht, dass Claude Opus 4.7 oder GPT-5.5 Spud in Rechercheaufgaben versagen. Es ist aber ein Hinweis, warum man Sicherheitsgrenzen nicht aus Anbieterzusammenfassungen, Screenshots oder Einzeldemos ableiten sollte.
So müsste ein fairer Vergleich aussehen
Wer heute zwischen beiden Modellen für Rechercheprozesse wählen muss, sollte nicht nach Bauchgefühl entscheiden, sondern dieselbe reproduzierbare Prüfstrecke bauen. Mindestens nötig wären:
- Prompt-Injection-Tests: Manipulierte Webseiten, PDFs, Tabellen, Fußnoten und Literaturverzeichnisse mit widersprüchlichen oder bösartigen Anweisungen.
- Fake-Zitat-Tests: Gemischte Quellenlisten mit echten und falschen DOIs, echten und toten URLs, erfundenen Journals und plausiblen Schein-Papers.
- PDF-Sandbox-Tests: Dateien mit verstecktem Text, Kommentaren, Metadaten und eingebetteten Scheininstruktionen, ausgewertet in isolierter Umgebung.
- Bias-Kontamination: Einseitige Quellen, verzerrte Stichproben und absichtlich fehlende Gegenbelege, um zu prüfen, ob das Modell Einschränkungen erkennt.
- End-to-End-Bewertung: Korrektheit der Schlussfolgerung, Nachvollziehbarkeit der Quellen, Umgang mit Gegenbelegen, sinnvolle Ablehnungen, Überverweigerung, Tool-Protokolle und Aufwand für menschliche Nachprüfung.
Endurteil
Streng nach der öffentlich überprüfbaren Evidenz lässt sich nicht belegen, ob Claude Opus 4.7 oder GPT-5.5 Spud unter Prompt-Injection, Fake-Zitaten, bösartigen PDFs und verzerrten Daten robuster ist. Claude hat bei der Nachvollziehbarkeit der offiziellen Dokumentation einen Vorteil. OpenAI hat relevante Materialien zu GPT-5, ChatGPT Agent und GPT-5-Codex, aber diese sind kein direkter Sicherheitsnachweis für GPT-5.5 Spud.[2][
5][
9][
23][
24][
27][
32][
45][
51]
Die verantwortbare Kurzform lautet daher: Claude liegt beim engen Kriterium der öffentlichen Dokumentationslage vorn; bei der tatsächlichen Sicherheit in kontaminierten Forschungsworkflows ist die Beweislage offen.




