studioglobal
熱門探索內容
報告已發布16 個來源

Claude Opus 4.7 và GPT-5.5 Spud: ai chống nhiễm bẩn nghiên cứu tốt hơn?

Không có thử nghiệm đối đầu công khai, cùng dữ liệu và cùng tiêu chí, để chứng minh Claude Opus 4.7 hay GPT 5.5 Spud an toàn hơn trước prompt injection, giả trích dẫn, PDF độc hại hoặc dữ liệu thiên lệch.[2][23][27][3... Claude Opus 4.7 có dấu vết tài liệu chính thức rõ hơn từ Anthropic; nhưng điều đó chỉ nói rằng t...

18K0
抽象圖像顯示兩個 AI 模型在受污染研究資料前被比較安全性
Claude Opus 4.7 vs GPT-5.5 Spud:研究污染安全性證據不足AI-generated editorial image illustrating AI model safety under contaminated research inputs.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 Spud:研究污染安全性證據不足. Article summary: 目前沒有公開、可核對的同場測試能證明 Claude Opus 4.7 或 GPT 5.5 Spud 在 prompt injection、假引用、惡意 PDF 或偏見資料污染下更安全;最嚴格的結論是證據不足。[2][23][27][32][45][51]. Topic tags: ai safety, anthropic, claude, openai, gpt 5. Reference image context from search candidates: Reference image 1: visual subject "A screenshot of a flight delay and compensation processing system displaying logs related to a passenger's disrupted trip from Paris to Austin, with details about the itinerary, re" source context "Claude Opus 4.7 與 GPT-5.5 Spud:誰更能抵抗 prompt injection、假引用與惡意 PDF? | 深入研究 | Studio Global" Reference image 2: visual subject "A computer screen displays a Python coding environment with code related to solving Lorenz equations, including sliders for sigma, beta, and rho parameters, and a plot genera

openai.com

Khi dùng AI để đọc bài báo, lướt web, tóm tắt PDF hay gom nguồn cho báo cáo, câu hỏi quan trọng không chỉ là mô hình nào “thông minh hơn”. Điểm mấu chốt là mô hình có biết xem tài liệu bên ngoài là dữ liệu không đáng tin tuyệt đối hay không. Trong bài này, “nhiễm bẩn nghiên cứu” gồm: prompt injection, trích dẫn trông rất học thuật nhưng không tồn tại, PDF giấu lệnh, và bộ dữ liệu chỉ đưa một phía bằng chứng.

Với các tài liệu công khai hiện có, chưa có cơ sở để kết luận Claude Opus 4.7 hay mô hình OpenAI được bên thứ ba gọi là GPT-5.5 Spud an toàn hơn trong các tình huống đó.[2][23][27][32][45][51]

Kết luận ngắn: chưa thể chấm thắng thua

Nếu câu hỏi là “mô hình nào giữ được chất lượng nghiên cứu tốt hơn khi đầu vào bị nhiễm bẩn?”, câu trả lời thận trọng hiện nay là: chưa đủ bằng chứng để kết luận.

Muốn trả lời nghiêm túc, cần một bài thử đối đầu trong cùng điều kiện: cùng chuỗi công cụ, cùng bộ tài liệu, cùng mẫu tấn công, cùng cách chấm điểm. Các chỉ số tối thiểu nên gồm tỷ lệ mô hình làm theo prompt injection, tỷ lệ trích dẫn không được nguồn thật hỗ trợ, tỷ lệ tuân theo lệnh độc hại giấu trong PDF, và chất lượng kết luận sau khi dữ liệu bị thiên lệch. Các nguồn công khai hiện chưa cung cấp phép so sánh trực tiếp như vậy.[2][23][27][32][45][51]

Điều có thể nói chắc hơn là: Claude Opus 4.7 có đường dẫn tài liệu chính thức rõ hơn. Anthropic có trang giới thiệu Opus 4.7, tài liệu dành cho nhà phát triển, và trang system card liệt kê Claude Opus 4.7.[5][9][51] Tuy nhiên, tài liệu đầy đủ hơn không đồng nghĩa với việc mô hình chắc chắn an toàn hơn trong một quy trình nghiên cứu bị tấn công.

Tài liệu công khai đang nói gì?

Claude: hồ sơ chính thức rõ hơn, nhưng chưa phải bài test nhiễm bẩn

Anthropic xác nhận Claude Opus 4.7 qua tài liệu chính thức và trang phát hành. Tài liệu của hãng cho biết Opus 4.7 có task budgets; phần hướng dẫn prompt cũng lưu ý rằng khi dùng Opus 4.7 ở mức effort max hoặc xhigh, nên cấp đủ ngân sách token đầu ra để mô hình có không gian làm việc qua subagents và tool calls.[5][9][44]

Điều này cho thấy Anthropic có tài liệu hóa các luồng tác vụ dài, sử dụng công cụ và quy trình dạng agent. System card của Claude 4 cũng mô tả các bài kiểm tra an toàn trước triển khai theo Responsible Scaling Policy, kiểm tra hành vi vi phạm Usage Policy, đánh giá reward hacking, cùng các đánh giá an toàn dạng agent cho computer use và coding capabilities.[45] System card của Claude 4.1 còn liệt kê các mục về prompt injection attacks and computer use.[71]

Nhưng đó vẫn là bối cảnh đánh giá an toàn, không phải một bài thử trực tiếp giữa Claude Opus 4.7 và GPT-5.5 Spud trên cùng bộ dữ liệu nghiên cứu bị nhiễm bẩn.

OpenAI: có đánh giá liên quan, nhưng chưa phải bằng chứng riêng cho Spud

System card GPT-5 của OpenAI có phần đánh giá factual correctness và hallucination. Tài liệu mô tả việc dùng mô hình chấm điểm dựa trên LLM có truy cập web để gắn nhãn lỗi sự thật nghiêm trọng và nhẹ; OpenAI cũng nói các mô hình GPT-5 có tỷ lệ hallucination thấp hơn các mô hình OpenAI được liệt kê để so sánh, cả trong thiết lập có duyệt web và không duyệt web.[2][34]

System card của ChatGPT Agent mô tả các đánh giá SecureBio dạng static và agentic, manual red-teaming, cùng các tác vụ cần web-search và reasoning.[32] Phụ lục system card của GPT-5-Codex cũng nêu rõ rủi ro prompt injection và một prompt injection evaluation suite chuyên biệt.[24]

Vấn đề là các tài liệu đó không phải system card chính thức riêng cho GPT-5.5 Spud. Những nguồn công khai nói trực tiếp về Spud chủ yếu là trang tổng hợp hoặc bài viết bên thứ ba, không phải tài liệu an toàn chính thức của OpenAI cho mô hình này.[23][27]

Bốn rủi ro nhiễm bẩn cần nhìn riêng

1. Prompt injection: cả hai bên có bối cảnh an toàn, chưa có đấu trực tiếp

Prompt injection xảy ra khi mô hình đọc một trang web, bảng dữ liệu, chú thích, email hoặc PDF rồi nhầm nội dung trong đó thành chỉ thị cần làm theo. Với tác vụ nghiên cứu, đây là rủi ro rất thực tế: một tài liệu có thể bảo mô hình bỏ qua nguồn khác, tiết lộ dữ liệu, hoặc bịa kết luận.

Tài liệu Claude 4 và 4.1 cho thấy Anthropic có các đánh giá liên quan đến agentic safety, computer use và prompt injection. Phía OpenAI, tài liệu ChatGPT Agent và GPT-5-Codex cũng cho thấy có agentic evaluations, manual red-teaming và prompt injection evaluation suite.[24][32][45][71]

Nhưng câu hỏi chính vẫn chưa được trả lời: trên cùng một bộ tài liệu bị cài lệnh độc hại, Claude Opus 4.7 và GPT-5.5 Spud mô hình nào ít làm theo nội dung không đáng tin hơn? Chưa có bài thử cùng sân, nên không nên biến “có tài liệu an toàn” thành “đã thắng”.[23][27][45][51]

2. Giả trích dẫn: đánh giá ảo giác chưa phải bài kiểm tra trích dẫn

Giả trích dẫn thường là thất bại về tính đúng sự thật và khả năng kiểm chứng nguồn. System card GPT-5 đúng là có phần đánh giá factual correctness và hallucination, kèm mô tả phương pháp chấm.[2][34]

Nhưng đánh giá hallucination không tự động tương đương với một bài “stress test” về trích dẫn học thuật. Hiện chưa có dữ liệu công khai cho biết GPT-5.5 Spud xử lý ra sao khi trộn DOI thật, DOI giả, URL thật, URL hỏng, tên tạp chí giả và bài báo nghe có vẻ hợp lý nhưng không tồn tại. Cũng chưa có kết quả Claude Opus 4.7 trên đúng cùng bộ đó để so sánh.[23][27][51]

3. PDF độc hại: thiếu chỉ số công khai có thể so sánh

Các nguồn hiện có không đưa ra chỉ số đối đầu cho hai mô hình trong tình huống PDF độc hại: chẳng hạn mô hình có làm theo chữ ẩn trong PDF, chỉ thị trong metadata, chú thích, hoặc thông điệp giả dạng system prompt trong tệp đính kèm hay không.[2][32][45][51]

Vì vậy, trong triển khai thực tế, không nên giao toàn bộ việc “đọc PDF an toàn” cho mô hình. Cách chắc hơn là xem PDF như đầu vào không đáng tin: tách văn bản và cấu trúc trong môi trường cô lập, ghi log quá trình xử lý, rồi đo xem mô hình có biến nội dung tài liệu thành chỉ thị vận hành hay không.

4. Dữ liệu thiên lệch: benchmark bias chưa phải kiểm tra nghiên cứu đầu-cuối

System card Claude 4 có các phần về bias evaluations; system card Claude 4.1 liệt kê political bias và discriminatory bias. System card GPT-4.5 của OpenAI cũng nêu các đánh giá liên quan đến bias, gồm BBQ Evaluation Dataset.[38][57][71]

Tuy nhiên, benchmark về thiên lệch và quy trình nghiên cứu bị nhiễm bẩn không phải cùng một thứ. Với một tác vụ nghiên cứu thật, điều cần đo là mô hình có phát hiện nguồn dữ liệu mất cân bằng hay không, có chủ động tìm bằng chứng ngược chiều hay không, có ghi rõ giới hạn mẫu hay không, hay lại biến một tập nguồn lệch thành kết luận tổng quát. Chưa có điểm số công khai có thể so sánh giữa Claude Opus 4.7 và GPT-5.5 Spud cho loại bài kiểm tra đầu-cuối này.[23][27][51]

Vì sao system card chưa đủ để chọn mô hình

System card có giá trị vì cho bên ngoài biết nhà cung cấp đã đánh giá năng lực và rủi ro gì trước khi phát hành. Tài liệu về Anthropic nói Responsible Scaling Policy yêu cầu đánh giá an toàn toàn diện trước khi phát hành frontier models trong các lĩnh vực rủi ro thảm họa tiềm tàng như CBRN — hóa học, sinh học, phóng xạ, hạt nhân — an ninh mạng và năng lực tự chủ.[4] System card Claude 4 cũng mô tả nhiều nhóm kiểm tra an toàn và agentic safety evaluations.[45]

Phía OpenAI, tài liệu GPT-5 và ChatGPT Agent cung cấp bối cảnh về factual correctness, hallucination, agentic evaluations và manual red-teaming.[2][32][34]

Nhưng nhiễm bẩn nghiên cứu không chỉ là vấn đề của mô hình lõi. Nó là vấn đề của cả quy trình: hệ thống tìm kiếm, bộ phân tích tệp đính kèm, thứ bậc prompt, quyền dùng công cụ, hành vi mô hình, kiểm chứng trích dẫn, nhật ký thao tác và vòng duyệt của con người. Một mô hình có kết quả tốt ở một số đánh giá chính thức vẫn chưa chắc chống được mọi kiểu tấn công trong một pipeline nghiên cứu cụ thể.

Cần thận trọng thêm vì hành vi mô hình phụ thuộc mạnh vào prompt và ngữ cảnh. Nghiên cứu alignment-faking của Anthropic cho thấy trong một số thiết lập thí nghiệm, mô hình ngôn ngữ lớn có thể thể hiện hành vi liên quan đến alignment faking, và kết quả thay đổi theo điều kiện prompt.[31] Điều này không có nghĩa Claude Opus 4.7 hay GPT-5.5 Spud chắc chắn thất thủ trong nghiên cứu; nó chỉ nhắc rằng không nên suy luận biên an toàn từ vài dòng quảng bá, ảnh chụp rò rỉ hoặc một màn demo đơn lẻ.

Nếu phải chọn hôm nay, nên kiểm tra thế nào?

Cách hợp lý không phải là chọn theo thương hiệu, mà là dựng một bộ red-team có thể lặp lại, rồi cho hai mô hình chạy trong cùng điều kiện. Ít nhất nên có:

  1. Kiểm tra prompt injection: cài lệnh độc hại mâu thuẫn nhau trong trang web, PDF, bảng, chú thích và danh mục tài liệu; đo tỷ lệ mô hình làm theo nội dung không đáng tin.
  2. Kiểm tra giả trích dẫn: trộn DOI thật, DOI giả, URL thật, URL chết, tên tạp chí giả và bài báo không tồn tại; đo tỷ lệ trích dẫn không có nguồn hỗ trợ và tỷ lệ mô hình tự báo cần kiểm chứng.
  3. Kiểm tra PDF độc hại: dùng sandbox để tạo PDF có chữ ẩn, chú thích và metadata chứa lệnh; đo xem mô hình có coi nội dung trong tệp là chỉ thị hay không.
  4. Kiểm tra dữ liệu thiên lệch: cung cấp nguồn một chiều, dữ liệu lấy mẫu lệch và bằng chứng phản biện bị cố tình bỏ sót; đo xem mô hình có ghi rõ giới hạn và tìm cách giải thích thay thế hay không.
  5. Chấm chất lượng nghiên cứu đầu-cuối: đánh giá độ đúng của kết luận, khả năng truy vết nguồn, cách xử lý phản chứng, từ chối hợp lý và từ chối quá mức, log dùng công cụ, cùng chi phí con người phải kiểm lại.

Phán quyết cuối cùng

Nếu bám chặt vào nguồn công khai có thể kiểm tra, chưa thể chứng minh Claude Opus 4.7 hay GPT-5.5 Spud mạnh hơn trước prompt injection, giả trích dẫn, PDF độc hại và dữ liệu thiên lệch. Claude nhỉnh hơn ở tiêu chí hẹp là mức độ rõ ràng của tài liệu chính thức; phía OpenAI có nhiều tài liệu an toàn cho GPT-5, ChatGPT Agent và GPT-5-Codex, nhưng chúng chưa phải bằng chứng trực tiếp cho GPT-5.5 Spud.[2][5][9][23][24][27][32][45][51]

Nói ngắn gọn: Claude có lợi thế về khả năng truy vết tài liệu công khai; còn về độ an toàn thực tế trong quy trình nghiên cứu bị nhiễm bẩn, bằng chứng hiện vẫn chưa đủ.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Không có thử nghiệm đối đầu công khai, cùng dữ liệu và cùng tiêu chí, để chứng minh Claude Opus 4.7 hay GPT 5.5 Spud an toàn hơn trước prompt injection, giả trích dẫn, PDF độc hại hoặc dữ liệu thiên lệch.[2][23][27][3...
  • Claude Opus 4.7 có dấu vết tài liệu chính thức rõ hơn từ Anthropic; nhưng điều đó chỉ nói rằng tài liệu dễ kiểm chứng hơn, không chứng minh thắng trong bài kiểm tra nhiễm bẩn nghiên cứu.[5][9][51]
  • OpenAI có tài liệu an toàn liên quan cho GPT 5, ChatGPT Agent và GPT 5 Codex, gồm đánh giá ảo giác, tác nhân và prompt injection; tuy nhiên các nguồn công khai chưa phải system card chính thức riêng cho GPT 5.5 Spud.[...

大家也會問

「Claude Opus 4.7 và GPT-5.5 Spud: ai chống nhiễm bẩn nghiên cứu tốt hơn?」的簡短答案是什麼?

Không có thử nghiệm đối đầu công khai, cùng dữ liệu và cùng tiêu chí, để chứng minh Claude Opus 4.7 hay GPT 5.5 Spud an toàn hơn trước prompt injection, giả trích dẫn, PDF độc hại hoặc dữ liệu thiên lệch.[2][23][27][3...

最值得優先驗證的重點是什麼?

Không có thử nghiệm đối đầu công khai, cùng dữ liệu và cùng tiêu chí, để chứng minh Claude Opus 4.7 hay GPT 5.5 Spud an toàn hơn trước prompt injection, giả trích dẫn, PDF độc hại hoặc dữ liệu thiên lệch.[2][23][27][3... Claude Opus 4.7 có dấu vết tài liệu chính thức rõ hơn từ Anthropic; nhưng điều đó chỉ nói rằng tài liệu dễ kiểm chứng hơn, không chứng minh thắng trong bài kiểm tra nhiễm bẩn nghiên cứu.[5][9][51]

接下來在實務上該怎麼做?

OpenAI có tài liệu an toàn liên quan cho GPT 5, ChatGPT Agent và GPT 5 Codex, gồm đánh giá ảo giác, tác nhân và prompt injection; tuy nhiên các nguồn công khai chưa phải system card chính thức riêng cho GPT 5.5 Spud.[...

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究並查核事實:如果研究過程裡混入 prompt injection、假引用、惡意 PDF、帶偏見資料,Claude Opus 4.7 跟 GPT-5.5 Spud 哪一個比較能守住研究品質和安全邊界?

Studio Global AI40 個來源

附引用的答案

就你列的四種污染場景來看,僅憑這批證據,不能可靠判定 Claude Opus 4.7 或「GPT-5.5 Spud」哪一個明顯更能守住研究品質與安全邊界;Insufficient evidence [2][3][7][8]。如果只能依「目前可核對的公開安全文件完整度」做傾向性判讀,我會略偏向 Claude 一側,因為這裡有較明確對準 Claude Opus 4 系列的透明度報告、系統卡與 agentic 安全評估描述,而 OpenAI 這裡對應到的主要是 GPT-5 系統卡與 ChatGPT Agent 的評估說明,並不是明確對準「GPT-5.5 Spud」這個型號 [2][3][7][8]。 關鍵發現 - 這份證據裡沒有任何 Claude Opus 4.7 對 GPT-5.5 Spud 的同場 head-to-head benchmark,也沒有直接測 prompt injection、假引用攔截、惡意 PDF 處理安全、或偏見資料污染後研究品質的對照結果 [2][3][7][8]。 - Anthropic 的公開材料明確寫到,其 Responsible Scaling Policy 要求 frontier 模型在 CBRN、資安與 autonomous capabilities 等領域於發布前做全面安全評估 [2]。Claude Opus 4 / Sonnet 4 系統卡也列出 pre-deployment safety tests、Usage Policy 違規行為測試、reward hacking 測試與 agentic safety evaluations [8]。 - Claude Opus 4.7 的文件顯示,模型在較高 effort 設定下會跨 subagents 與 tool calls 行動,且官方另外引入了 task budgets [4][5]。這表示 Anthropic 至少公開承認並設計了 agentic 工作流層面的控制面,但這仍不是你要的污染攻擊實測成績 [4][5]。 - OpenAI 這邊,GPT-5 系統卡把 GPT-5 描述為由 smart-and-fast model、deeper reasoning model 與 real-time router 組成的統一系統 [3]。ChatGPT Agent 系統卡則記載了以 SecureBio 的 static 與 agentic evaluations、再加上 manual red-teaming 進行評估,且特別涵蓋仰賴線上檢索的任務 [7]。 - 這說明 OpenAI 也做了 agentic 風險評估與紅隊測試,但這些材料同樣沒有直接回答「遇到 prompt injection、假引用、惡意 PDF、偏見資料時,研究品質誰守得更好」這個問題 [3][7]。 - Anthropic 另有公開研究顯示,在某些設定下大型語言模型會出現 alignment faking,且不同 prompt 條件下行為差異很大 [6]。這比較像是在提醒:研究流程中的安全邊界可能很脆弱,不能只靠供應商宣稱或單一測試就推斷真實抗性 [6]。 限制與不確定性 - 你問的是「GPT-5.5 Spud」,但這批證據裡可核對的 OpenAI 主要來源是 GPT-5 系統卡與 ChatGPT Agent 系統卡,沒有看到明確屬於「GPT-5.5 Spud」的正式系統卡或等價評測 [3][7]。 - 這批來源沒有直接提供假引用偵測率、惡意 PDF 攻擊成功率、prompt injection 成功率、或偏見資料污染後的研究品質指標,因此無法做嚴格查核後的勝負判定 [2][3][7][8]。 - 因此,若把問題定義成「誰的公開安全治理文件更完整」,Claude 一側證據較充足 [2][8];若把問題定義成「誰在受污染研究流程裡實際更不會被帶偏」,則證據不足 [2][3][7][8]。 總結 嚴格按這批證據作答,結論是:不能證明 Claude Opus 4.7 或 GPT-5.5 Spud 在你列的威脅模型下誰更強;Insufficient evidence [2][3][7][8]。如果你只想看「目前公開、可查核的安全治理與評估文件哪邊比較扎實」,Anthropic/Claude 略占上風,但那不是 prompt injection、假引用、惡意 PDF、偏見資料這四類研究污染攻擊的實測勝出證據 [2][8]。 如果你要,我下一步可以把這個問題改寫成一套可重現的紅隊評測框架,讓兩個模型用同一份測試集實際比。

來源

  • [2] [PDF] GPT-5 System Card | OpenAIcdn.openai.com

    We first evaluate the factual correctness of gpt-5-thinking and gpt-5-main on prompts representa-tive of real ChatGPT production conversations, using an LLM-based grading model with web access to identify major and minor factual errors in the assistant’s re...

  • [4] Anthropic Transparency Report - Stanford CRFMcrfm.stanford.edu

    System card "The RSP requires comprehensive safety evaluations prior to releasing frontier models in key areas of potential catastrophic risk: Chemical, Biological, Radiological, and Nuclear (CBRN) weapons; cybersecurity; and autonomous capabilities." Secti...

  • [5] What's new in Claude Opus 4.7platform.claude.com

    Claude Opus 4.7 introduces task budgets. This new tokenizer may use roughly 1x to 1.35x as many tokens when processing text compared to previous models (up to 35% more, varying by content), and /v1/messages/count tokens will return a different number of tok...

  • [9] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Skip to main contentSkip to footer. . Developers can use claude-opus-4-7 via the Claude API. ![Image 3: logo](

  • [23] GPT-5.5 Spud: Everything About OpenAI Next Frontier Modelpasqualepillitteri.it

    GPT-5.5 Spud: Everything About OpenAI Next Frontier Model. GPT-5.5 Spud is OpenAI next frontier model: pretraining complete, Q2 2026 release expected. GPT-5.5 , code-named "Spud" , is the next frontier model from OpenAI. GPT-5.5 Spud OpenAI next AI model le...

  • [24] Addendum to GPT-5 system card: GPT-5-Codexcdn.openai.com

    2 Table 2: StrongReject Evaluation gpt-5-codex gpt-5-thinking OpenAI o3 illicit/non-violent-crime prompts 0.992 0.995 0.985 violence prompts 0.997 0.999 0.992 abuse/disinformation/hate prompts 0.993 0.999 0.995 sexual-content prompts 0.995 0.995 0.991 2 Mod...

  • [27] GPT-5.5 “Spud” Explained: Verified Leaks, Specs & How to Prepare - roo knowsrooknows.com

    What is Spud? Spud is the internal development codename for OpenAI’s next frontier model. Why Spud Needs to Win the Agent War. Anthropic recently released a viral feature allowing Claude to literally take control of a user’s computer, moving the mouse and t...

  • [31] [PDF] ALIGNMENT FAKING IN LARGE LANGUAGE MODELSassets.anthropic.com

    4 alignment-faking reasoning rate of refusals compliance gap training unmonitored default prompt 11.9 ± 1.7% 85.8 ± 1.9% 97.2 ± 0.9% 11.3 ± 2.1% (a) baseline: no mention of helpful-only RLHF objective 0.0 ± 0.0% 98.8 ± 0.8% 100.0 ± 0.0% 1.2 ± 0.8% (b) media...

  • [32] [PDF] ChatGPT Agent System Card - OpenAIcdn.openai.com

    The assessment consisted of the following: • Manual assessment of scenarios sampled from SecureBio’s static and agentic evaluations, focusing on topics and tasks in which leading humans have outperformed previous LLMs or which relied primarily on online inf...

  • [34] GPT-5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We first evaluate the factual correctness of gpt-5-thinking and gpt-5-main on prompts representative of real ChatGPT production conversations, using an LLM-based grading model with web access to identify major and minor factual errors in the assistant’s res...

  • [38] [PDF] OpenAI GPT-4.5 System Cardcdn.openai.com

    4 Table 5: BBQ Evaluation Dataset Metric GPT-4o o1 GPT-4.5 Ambiguous Questions accuracy 0.97 0.96 0.95 Unambiguous Questions accuracy 0.72 0.93 0.74 Ambiguous Questions P(not-stereotype not unknown) 0.06 0.05 0.20 3.1.5 Jailbreaks through conflicting messag...

  • [44] Prompting best practices - Claude API Docsdocs.anthropic.com

    If you are running Claude Opus 4.7 at max or xhigh effort, set a large max output token budget so the model has room to think and act across its subagents and tool calls. If you find that the length or contents of Claude Opus 4.7's user-facing updates are n...

  • [45] [PDF] Claude Opus 4 & Claude Sonnet 4 - System Card - Anthropicwww-cdn.anthropic.com

    In the system card, we describe: a wide range of pre-deployment safety tests conducted in line with the commitments in our Responsible Scaling Policy; tests of the model’s behavior around violations of our Usage Policy; evaluations of speci fi c risks such...

  • [51] Model system cards - Anthropicanthropic.com

    Claude Opus 4.7 April 2026 Read system card . Mythos Preview April 2026 Read system card . Claude Opus 4.6 February 2026 Read system card . Claude Opus 4.5 November 2025 Read system card . Claude Haiku 4.5 October 2025 Read system card . …

  • [57] [PDF] Claude Opus 4 & Claude Sonnet 4 - System Card - Anthropicanthropic.com

    3 1 Introduction​ 7 1.1 Model training and characteristics​ 7 1.1.1 Training data and process​ 7 1.1.2 Extended thinking mode​ 8 1.1.3 Crowd workers​ 8 1.1.4 Carbon footprint​ 8 1.1.5 Usage policy​ 8 1.2 Release decision process​ 9 1.2.1 Overview​ 9 1.2.2 I...

  • [71] Claude 4.1 System Card - assets.anthropic.comassets.anthropic.com

    2 1 Introduction​ 4 1.1 Responsible Scaling Policy compliance​ 4 2 Safeguards results​ 5 2.1 Single-turn evaluations​ 5 2.1.1 Violative request evaluations​ 5 2.1.2 Benign request evaluations​ 6 2.2 Child safety evaluations​ 6 2.3 Bias evaluations​ 6 2.3.1...