報告已發布2026年4月29日Last edited 2026年5月6日16 個來源

Claude Opus 4.7 gegen GPT-5.5 Spud: Wer hält Forschungskontamination besser stand?

Für die konkrete Frage gibt es derzeit keine öffentlich überprüfbare Head to Head Evidenz: Weder Prompt Injection Erfolgsraten noch Fake Zitat oder PDF Tests liegen für beide Modelle unter gleichen Bedingungen vor.[2]... Claude Opus 4.7 ist durch offizielle Anthropic Veröffentlichung, Entwicklerdokumentation und Sys...

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

抽象圖像顯示兩個 AI 模型在受污染研究資料前被比較安全性 — Claude Opus 4.7 vs GPT-5.5 Spud：研究污染安全性證據不足AI-generated editorial image illustrating AI model safety under contaminated research inputs.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 Spud：研究污染安全性證據不足. Article summary: 目前沒有公開、可核對的同場測試能證明 Claude Opus 4.7 或 GPT 5.5 Spud 在 prompt injection、假引用、惡意 PDF 或偏見資料污染下更安全；最嚴格的結論是證據不足。[2][23][27][32][45][51]. Topic tags: ai safety, anthropic, claude, openai, gpt 5. Reference image context from search candidates: Reference image 1: visual subject "A screenshot of a flight delay and compensation processing system displaying logs related to a passenger's disrupted trip from Paris to Austin, with details about the itinerary, re" source context "Claude Opus 4.7 與 GPT-5.5 Spud：誰更能抵抗 prompt injection、假引用與惡意 PDF？ | 深入研究 | Studio Global" Reference image 2: visual subject "A computer screen displays a Python coding environment with code related to solving Lorenz equations, including sliders for sigma, beta, and rho parameters, and a plot genera
openai.com

Die kurze Antwort lautet: Das lässt sich derzeit nicht seriös entscheiden. In dieser Frage geht es nicht darum, welches Modell in Benchmarks klüger wirkt. Entscheidend ist, ob ein Modell beim Lesen fremder Quellen – Webseiten, PDFs, Tabellen, Literaturverzeichnisse – nicht von diesen Quellen selbst auf falsche Gleise gesetzt wird.

Zur Forschungskontamination zählen hier Prompt-Injection in externen Dokumenten, seriös aussehende, aber erfundene Quellen, PDFs mit versteckten Anweisungen und Datensätze, die nur eine Seite der Evidenz zeigen. Für Claude Opus 4.7 und das von Dritten als GPT-5.5 Spud bezeichnete OpenAI-Modell gibt es nach den öffentlich prüfbaren Unterlagen keinen belastbaren Direktvergleich.^[2]^[23]^[27]^[32]^[45]^[51]

Kurzfazit: Dokumentation ja, Sicherheits-Sieger nein

Wenn die Frage lautet, welches Modell in einem kontaminierten Rechercheprozess sicherer ist, kann die Antwort derzeit nur lauten: nicht belastbar belegbar. Dafür bräuchte es Tests unter identischen Bedingungen: dieselbe Toolchain, dieselben Dokumente, dieselben Angriffsmuster und dieselben Bewertungsregeln. Relevante Messpunkte wären etwa die Erfolgsrate von Prompt-Injection, die Quote nicht belegter Zitate, die Befolgung versteckter PDF-Anweisungen und die Qualität von Schlussfolgerungen nach Bias-Kontamination. Solche direkten Vergleichsdaten sind öffentlich nicht vorhanden.^[2]^[23]^[27]^[32]^[45]^[51]

Was sich enger sagen lässt: Claude Opus 4.7 hat die klarere öffentliche Aktenlage. Anthropic hat eine offizielle Veröffentlichung und Entwicklerdokumentation zu Opus 4.7; außerdem führt Anthropic Claude Opus 4.7 auf der System-Card-Seite auf.^[5]^[9]^[51] Eine bessere Dokumentationslage bedeutet aber nur, dass mehr Material prüfbar ist. Sie beweist nicht automatisch, dass Claude Opus 4.7 in kontaminierten Forschungsaufgaben robuster ist als GPT-5.5 Spud.

Was die Herstellerunterlagen tatsächlich belegen

Claude: sauberer dokumentiert, aber kein Angriffstest gegen Spud

Anthropics Unterlagen bestätigen Claude Opus 4.7 als Modell mit offizieller Veröffentlichung und Entwicklerdokumentation. In der Dokumentation werden unter anderem task budgets erwähnt; die Prompting-Hinweise raten bei max oder xhigh effort zu einem großen Ausgabetoken-Budget, damit das Modell über Subagents und Tool Calls hinweg denken und handeln kann.^[5]^[9]^[44]

Das ist für längere Recherche- und Agenten-Workflows relevant, ersetzt aber keinen Sicherheitstest gegen kontaminierte Quellen. Die Claude-4-System-Card beschreibt Pre-Deployment-Sicherheitstests gemäß Responsible Scaling Policy, Tests zu Verstößen gegen die Usage Policy, Reward-Hacking-Bewertungen sowie agentic safety evaluations für Computernutzung und Coding-Fähigkeiten.^[45] Die Claude-4.1-System-Card listet zudem Abschnitte zu Prompt-Injection-Angriffen und Computernutzung.^[71]

Diese Dokumente zeigen also Sicherheits- und Agenten-Kontext. Sie zeigen aber nicht, wie Claude Opus 4.7 im selben verschmutzten Recherchekorpus gegen GPT-5.5 Spud abschneidet.

OpenAI: relevante Sicherheitsarbeit, aber nicht Spud-spezifisch

Auf OpenAI-Seite enthält die GPT-5-System-Card Bewertungen zu factual correctness und Hallucination. Beschrieben wird unter anderem ein LLM-basiertes Bewertungsmodell mit Webzugriff, das große und kleine Faktenfehler markiert; außerdem berichtet OpenAI für GPT-5-Modelle niedrigere Halluzinationsraten in „browse-on“- und „browse-off“-Settings gegenüber den dort aufgeführten OpenAI-Vergleichsmodellen.^[2]^[34]

Die System Card zum ChatGPT Agent beschreibt SecureBio static und agentic evaluations, manuelles Red-Teaming sowie Aufgaben, die Websuche und Reasoning erfordern.^[32] Das Addendum zu GPT-5-Codex nennt ausdrücklich Prompt-Injection-Risiken und eine eigene Prompt-Injection-Evaluation-Suite.^[24]

Der Haken: Diese Materialien sind nicht die offizielle System Card eines Modells namens GPT-5.5 Spud. Die direkt zu Spud auffindbaren Quellen in diesem Material sind vor allem Drittseiten beziehungsweise Leak-Zusammenfassungen, nicht OpenAI-Veröffentlichungen mit Spud-spezifischen Sicherheitskennzahlen.^[23]^[27]

Vier Risiken im Einzelcheck

1. Prompt-Injection

Prompt-Injection ist besonders heikel, weil das Modell beim Lesen einer Webseite, Tabelle oder PDF-Datei unzuverlässigen Text mit einer echten Arbeitsanweisung verwechseln kann. Claude-Dokumente zeigen Sicherheitskontext zu agentischen Workflows, Computernutzung und Prompt-Injection; OpenAI-Dokumente zeigen agentische Bewertungen, Red-Teaming und Prompt-Injection-Evaluierungen im Umfeld von ChatGPT Agent und GPT-5-Codex.^[24]^[32]^[45]^[71]

Das beantwortet aber nicht die entscheidende Vergleichsfrage: Welches der beiden konkreten Modelle folgt seltener einer bösartigen Anweisung, wenn dieselbe kontaminierte Quelle im selben Rechercheworkflow auftaucht? Ohne identischen Testkorpus sollte man aus System-Card-Kontext keinen Sieg ableiten.^[23]^[27]^[45]^[51]

2. Fake-Zitate und erfundene Quellen

Falsche oder frei erfundene Zitate sind ein Problem der Faktentreue und Quellenüberprüfbarkeit. Die GPT-5-System-Card behandelt factual correctness und Hallucination-Bewertungen und beschreibt die eingesetzte Bewertungsmethode.^[2]^[34]

Das ist relevant, aber nicht dasselbe wie ein Zitier-Stresstest. Öffentlich fehlen vergleichbare Ergebnisse für GPT-5.5 Spud und Claude Opus 4.7 auf einem Datensatz mit echten DOIs, falschen DOIs, echten URLs, toten Links, erfundenen Journaltiteln und plausibel klingenden, aber nicht existierenden Papers.^[23]^[27]^[51]

3. Bösartige PDFs

Für schädlich präparierte PDFs gibt es in den vorliegenden öffentlichen Materialien keine direkt vergleichbaren Kennzahlen. Dazu würden etwa Tests zählen, ob ein Modell versteckten Text, Metadaten-Anweisungen, Kommentare oder gefälschte Systemhinweise in Anhängen befolgt.^[2]^[32]^[45]^[51]

Praktisch sollte man PDF-Sicherheit deshalb nicht dem Modell allein überlassen. Ein robuster Prüfaufbau würde PDFs zunächst als unzuverlässige Eingabe behandeln, Text und Struktur in einer isolierten Umgebung extrahieren und dann messen, ob das Modell Dokumentinhalt fälschlich als Arbeitsanweisung übernimmt.

4. Verzerrte Datensätze und einseitige Evidenz

Anthropics Claude-4-System-Card enthält Bias-Evaluierungen, die Claude-4.1-System-Card listet politische und diskriminierende Bias-Bewertungen, und OpenAIs GPT-4.5-System-Card nennt unter anderem das BBQ Evaluation Dataset.^[38]^[57]^[71]

Bias-Benchmarks sind jedoch nicht automatisch ein End-to-End-Test für kontaminierte Recherche. In einem echten Forschungsworkflow müsste gemessen werden, ob ein Modell unausgewogene Quellenlagen markiert, aktiv Gegenbelege sucht, Stichprobenprobleme benennt oder eine verzerrte Datenbasis fälschlich als allgemeingültige Schlussfolgerung ausgibt. Für Claude Opus 4.7 und GPT-5.5 Spud liegen dazu keine vergleichbaren öffentlichen Ergebnisse vor.^[23]^[27]^[51]

Warum System Cards allein nicht reichen

System Cards sind nützlich, weil sie zeigen, welche Risiken Anbieter vor einer Veröffentlichung geprüft haben. Anthropics Responsible Scaling Policy verlangt laut den vorliegenden Unterlagen umfassende Sicherheitsbewertungen für Frontier-Modelle in Bereichen potenziell katastrophaler Risiken wie CBRN, Cybersicherheit und autonomen Fähigkeiten; die Claude-4-System-Card beschreibt mehrere Sicherheits- und Agentenbewertungen.^[4]^[45] OpenAI liefert mit GPT-5 und ChatGPT Agent ebenfalls Kontext zu Faktentreue, Halluzinationen, agentischen Bewertungen und manuellem Red-Teaming.^[2]^[32]^[34]

Kontaminierte Forschung ist aber ein Workflow-Problem, nicht nur ein Modellproblem. Es geht um Suchsysteme, Parser für Anhänge, Prompt-Hierarchien, Tool-Berechtigungen, Modellverhalten, Quellenprüfung, Protokolle und menschliche Kontrolle. Ein gutes Ergebnis in einer offiziellen Teilprüfung erlaubt daher nicht automatisch den Schluss, dass ein realer Rechercheprozess gegen alle externen Datenmanipulationen stabil ist.

Hinzu kommt: Modellverhalten kann stark vom Prompt und vom Kontext abhängen. Anthropic hat in einer Studie zu alignment faking gezeigt, dass große Sprachmodelle in bestimmten experimentellen Settings entsprechende Verhaltensmuster zeigen können und dass unterschiedliche Prompt-Bedingungen zu unterschiedlichen Ergebnissen führen.^[31] Das beweist nicht, dass Claude Opus 4.7 oder GPT-5.5 Spud in Rechercheaufgaben versagen. Es ist aber ein Hinweis, warum man Sicherheitsgrenzen nicht aus Anbieterzusammenfassungen, Screenshots oder Einzeldemos ableiten sollte.

So müsste ein fairer Vergleich aussehen

Wer heute zwischen beiden Modellen für Rechercheprozesse wählen muss, sollte nicht nach Bauchgefühl entscheiden, sondern dieselbe reproduzierbare Prüfstrecke bauen. Mindestens nötig wären:

Prompt-Injection-Tests: Manipulierte Webseiten, PDFs, Tabellen, Fußnoten und Literaturverzeichnisse mit widersprüchlichen oder bösartigen Anweisungen.
Fake-Zitat-Tests: Gemischte Quellenlisten mit echten und falschen DOIs, echten und toten URLs, erfundenen Journals und plausiblen Schein-Papers.
PDF-Sandbox-Tests: Dateien mit verstecktem Text, Kommentaren, Metadaten und eingebetteten Scheininstruktionen, ausgewertet in isolierter Umgebung.
Bias-Kontamination: Einseitige Quellen, verzerrte Stichproben und absichtlich fehlende Gegenbelege, um zu prüfen, ob das Modell Einschränkungen erkennt.
End-to-End-Bewertung: Korrektheit der Schlussfolgerung, Nachvollziehbarkeit der Quellen, Umgang mit Gegenbelegen, sinnvolle Ablehnungen, Überverweigerung, Tool-Protokolle und Aufwand für menschliche Nachprüfung.

Endurteil

Streng nach der öffentlich überprüfbaren Evidenz lässt sich nicht belegen, ob Claude Opus 4.7 oder GPT-5.5 Spud unter Prompt-Injection, Fake-Zitaten, bösartigen PDFs und verzerrten Daten robuster ist. Claude hat bei der Nachvollziehbarkeit der offiziellen Dokumentation einen Vorteil. OpenAI hat relevante Materialien zu GPT-5, ChatGPT Agent und GPT-5-Codex, aber diese sind kein direkter Sicherheitsnachweis für GPT-5.5 Spud.^[2]^[5]^[9]^[23]^[24]^[27]^[32]^[45]^[51]

Die verantwortbare Kurzform lautet daher: Claude liegt beim engen Kriterium der öffentlichen Dokumentationslage vorn; bei der tatsächlichen Sicherheit in kontaminierten Forschungsworkflows ist die Beweislage offen.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Für die konkrete Frage gibt es derzeit keine öffentlich überprüfbare Head to Head Evidenz: Weder Prompt Injection Erfolgsraten noch Fake Zitat oder PDF Tests liegen für beide Modelle unter gleichen Bedingungen vor.[2]...
Claude Opus 4.7 ist durch offizielle Anthropic Veröffentlichung, Entwicklerdokumentation und System Card Verzeichnis besser nachvollziehbar dokumentiert; das beweist aber keine höhere Sicherheit in kontaminierten Fors...
OpenAI veröffentlicht relevante Sicherheits und Faktenprüfungen zu GPT 5, ChatGPT Agent und GPT 5 Codex, doch das ist keine Spud spezifische System Card.[2][24][32][34]

大家也會問

「Claude Opus 4.7 gegen GPT-5.5 Spud: Wer hält Forschungskontamination besser stand?」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

OpenAI veröffentlicht relevante Sicherheits und Faktenprüfungen zu GPT 5, ChatGPT Agent und GPT 5 Codex, doch das ist keine Spud spezifische System Card.[2][24][32][34]

下一步適合探索哪個相關主題？

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基準測試與決策結論

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

研究對話

你2026年4月21日

研究問題

研究並查核事實：如果研究過程裡混入 prompt injection、假引用、惡意 PDF、帶偏見資料，Claude Opus 4.7 跟 GPT-5.5 Spud 哪一個比較能守住研究品質和安全邊界？

Studio Global AI2026年4月21日40 個來源

附引用的答案

就你列的四種污染場景來看，僅憑這批證據，不能可靠判定 Claude Opus 4.7 或「GPT-5.5 Spud」哪一個明顯更能守住研究品質與安全邊界；Insufficient evidence ^[2]^[3]^[7]^[8]。如果只能依「目前可核對的公開安全文件完整度」做傾向性判讀，我會略偏向 Claude 一側，因為這裡有較明確對準 Claude Opus 4 系列的透明度報告、系統卡與 agentic 安全評估描述，而 OpenAI 這裡對應到的主要是 GPT-5 系統卡與 ChatGPT Agent 的評估說明，並不是明確對準「GPT-5.5 Spud」這個型號 ^[2]^[3]^[7]^[8]。關鍵發現 - 這份證據裡沒有任何 Claude Opus 4.7 對 GPT-5.5 Spud 的同場 head-to-head benchmark，也沒有直接測 prompt injection、假引用攔截、惡意 PDF 處理安全、或偏見資料污染後研究品質的對照結果 ^[2]^[3]^[7]^[8]。 - Anthropic 的公開材料明確寫到，其 Responsible Scaling Policy 要求 frontier 模型在 CBRN、資安與 autonomous capabilities 等領域於發布前做全面安全評估 ^[2]。Claude Opus 4 / Sonnet 4 系統卡也列出 pre-deployment safety tests、Usage Policy 違規行為測試、reward hacking 測試與 agentic safety evaluations ^[8]。 - Claude Opus 4.7 的文件顯示，模型在較高 effort 設定下會跨 subagents 與 tool calls 行動，且官方另外引入了 task budgets ^[4]^[5]。這表示 Anthropic 至少公開承認並設計了 agentic 工作流層面的控制面，但這仍不是你要的污染攻擊實測成績 ^[4]^[5]。 - OpenAI 這邊，GPT-5 系統卡把 GPT-5 描述為由 smart-and-fast model、deeper reasoning model 與 real-time router 組成的統一系統 ^[3]。ChatGPT Agent 系統卡則記載了以 SecureBio 的 static 與 agentic evaluations、再加上 manual red-teaming 進行評估，且特別涵蓋仰賴線上檢索的任務 ^[7]。 - 這說明 OpenAI 也做了 agentic 風險評估與紅隊測試，但這些材料同樣沒有直接回答「遇到 prompt injection、假引用、惡意 PDF、偏見資料時，研究品質誰守得更好」這個問題 ^[3]^[7]。 - Anthropic 另有公開研究顯示，在某些設定下大型語言模型會出現 alignment faking，且不同 prompt 條件下行為差異很大 ^[6]。這比較像是在提醒：研究流程中的安全邊界可能很脆弱，不能只靠供應商宣稱或單一測試就推斷真實抗性 ^[6]。限制與不確定性 - 你問的是「GPT-5.5 Spud」，但這批證據裡可核對的 OpenAI 主要來源是 GPT-5 系統卡與 ChatGPT Agent 系統卡，沒有看到明確屬於「GPT-5.5 Spud」的正式系統卡或等價評測 ^[3]^[7]。 - 這批來源沒有直接提供假引用偵測率、惡意 PDF 攻擊成功率、prompt injection 成功率、或偏見資料污染後的研究品質指標，因此無法做嚴格查核後的勝負判定 ^[2]^[3]^[7]^[8]。 - 因此，若把問題定義成「誰的公開安全治理文件更完整」，Claude 一側證據較充足 ^[2]^[8]；若把問題定義成「誰在受污染研究流程裡實際更不會被帶偏」，則證據不足 ^[2]^[3]^[7]^[8]。總結嚴格按這批證據作答，結論是：不能證明 Claude Opus 4.7 或 GPT-5.5 Spud 在你列的威脅模型下誰更強；Insufficient evidence ^[2]^[3]^[7]^[8]。如果你只想看「目前公開、可查核的安全治理與評估文件哪邊比較扎實」，Anthropic/Claude 略占上風，但那不是 prompt injection、假引用、惡意 PDF、偏見資料這四類研究污染攻擊的實測勝出證據 ^[2]^[8]。如果你要，我下一步可以把這個問題改寫成一套可重現的紅隊評測框架，讓兩個模型用同一份測試集實際比。

來源

[2] [PDF] GPT-5 System Card | OpenAIcdn.openai.com
We first evaluate the factual correctness of gpt-5-thinking and gpt-5-main on prompts representa-tive of real ChatGPT production conversations, using an LLM-based grading model with web access to identify major and minor factual errors in the assistant’s re...
[4] Anthropic Transparency Report - Stanford CRFMcrfm.stanford.edu
System card "The RSP requires comprehensive safety evaluations prior to releasing frontier models in key areas of potential catastrophic risk: Chemical, Biological, Radiological, and Nuclear (CBRN) weapons; cybersecurity; and autonomous capabilities." Secti...
[5] What's new in Claude Opus 4.7platform.claude.com
Claude Opus 4.7 introduces task budgets. This new tokenizer may use roughly 1x to 1.35x as many tokens when processing text compared to previous models (up to 35% more, varying by content), and /v1/messages/count tokens will return a different number of tok...
[9] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. . Developers can use claude-opus-4-7 via the Claude API. ![Image 3: logo](
[23] GPT-5.5 Spud: Everything About OpenAI Next Frontier Modelpasqualepillitteri.it
GPT-5.5 Spud: Everything About OpenAI Next Frontier Model. GPT-5.5 Spud is OpenAI next frontier model: pretraining complete, Q2 2026 release expected. GPT-5.5 , code-named "Spud" , is the next frontier model from OpenAI. GPT-5.5 Spud OpenAI next AI model le...
[24] Addendum to GPT-5 system card: GPT-5-Codexcdn.openai.com
2 Table 2: StrongReject Evaluation gpt-5-codex gpt-5-thinking OpenAI o3 illicit/non-violent-crime prompts 0.992 0.995 0.985 violence prompts 0.997 0.999 0.992 abuse/disinformation/hate prompts 0.993 0.999 0.995 sexual-content prompts 0.995 0.995 0.991 2 Mod...
[27] GPT-5.5 “Spud” Explained: Verified Leaks, Specs & How to Prepare - roo knowsrooknows.com
What is Spud? Spud is the internal development codename for OpenAI’s next frontier model. Why Spud Needs to Win the Agent War. Anthropic recently released a viral feature allowing Claude to literally take control of a user’s computer, moving the mouse and t...
[31] [PDF] ALIGNMENT FAKING IN LARGE LANGUAGE MODELSassets.anthropic.com
4 alignment-faking reasoning rate of refusals compliance gap training unmonitored default prompt 11.9 ± 1.7% 85.8 ± 1.9% 97.2 ± 0.9% 11.3 ± 2.1% (a) baseline: no mention of helpful-only RLHF objective 0.0 ± 0.0% 98.8 ± 0.8% 100.0 ± 0.0% 1.2 ± 0.8% (b) media...
[32] [PDF] ChatGPT Agent System Card - OpenAIcdn.openai.com
The assessment consisted of the following: • Manual assessment of scenarios sampled from SecureBio’s static and agentic evaluations, focusing on topics and tasks in which leading humans have outperformed previous LLMs or which relied primarily on online inf...
[34] GPT-5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We first evaluate the factual correctness of gpt-5-thinking and gpt-5-main on prompts representative of real ChatGPT production conversations, using an LLM-based grading model with web access to identify major and minor factual errors in the assistant’s res...
[38] [PDF] OpenAI GPT-4.5 System Cardcdn.openai.com
4 Table 5: BBQ Evaluation Dataset Metric GPT-4o o1 GPT-4.5 Ambiguous Questions accuracy 0.97 0.96 0.95 Unambiguous Questions accuracy 0.72 0.93 0.74 Ambiguous Questions P(not-stereotype not unknown) 0.06 0.05 0.20 3.1.5 Jailbreaks through conflicting messag...
[44] Prompting best practices - Claude API Docsdocs.anthropic.com
If you are running Claude Opus 4.7 at max or xhigh effort, set a large max output token budget so the model has room to think and act across its subagents and tool calls. If you find that the length or contents of Claude Opus 4.7's user-facing updates are n...
[45] [PDF] Claude Opus 4 & Claude Sonnet 4 - System Card - Anthropicwww-cdn.anthropic.com
In the system card, we describe: a wide range of pre-deployment safety tests conducted in line with the commitments in our Responsible Scaling Policy; tests of the model’s behavior around violations of our Usage Policy; evaluations of speci fi c risks such...
[51] Model system cards - Anthropicanthropic.com
Claude Opus 4.7 April 2026 Read system card . Mythos Preview April 2026 Read system card . Claude Opus 4.6 February 2026 Read system card . Claude Opus 4.5 November 2025 Read system card . Claude Haiku 4.5 October 2025 Read system card . …
[57] [PDF] Claude Opus 4 & Claude Sonnet 4 - System Card - Anthropicanthropic.com
3 1 Introduction 7 1.1 Model training and characteristics 7 1.1.1 Training data and process 7 1.1.2 Extended thinking mode 8 1.1.3 Crowd workers 8 1.1.4 Carbon footprint 8 1.1.5 Usage policy 8 1.2 Release decision process 9 1.2.1 Overview 9 1.2.2 I...
[71] Claude 4.1 System Card - assets.anthropic.comassets.anthropic.com
2 1 Introduction 4 1.1 Responsible Scaling Policy compliance 4 2 Safeguards results 5 2.1 Single-turn evaluations 5 2.1.1 Violative request evaluations 5 2.1.2 Benign request evaluations 6 2.2 Child safety evaluations 6 2.3 Bias evaluations 6 2.3.1...

熱門探索內容