studioglobal
熱門發現
報告已發布16 來源

Claude Opus 4.7 vs GPT-5.5 Spud:研究污染安全性未能判定

公開可核對資料未有 Claude Opus 4.7 對 GPT 5.5 Spud 嘅同場測試,所以不能證明邊個更能抵抗 prompt injection、假引用、惡意 PDF 或偏見資料污染。[2][23][27][32][45][51] Claude Opus 4.7 一邊有官方發布、開發者文件同系統卡列表可追溯;但文件較清楚,只代表可查資料較多,唔等於污染攻擊實測勝出。[5][9][51] OpenAI 有 GPT 5、ChatGPT Agent、GPT 5 Codex 嘅事實性、agentic red teaming 同 prompt injection 評估脈絡;但可查資料未見 GPT 5.5 Spud 專屬官方系統卡...

18K0
抽象圖像顯示兩個 AI 模型在受污染研究資料前被比較安全性
Claude Opus 4.7 vs GPT-5.5 Spud:研究污染安全性證據不足AI-generated editorial image illustrating AI model safety under contaminated research inputs.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 Spud:研究污染安全性證據不足. Article summary: 目前沒有公開、可核對的同場測試能證明 Claude Opus 4.7 或 GPT 5.5 Spud 在 prompt injection、假引用、惡意 PDF 或偏見資料污染下更安全;最嚴格的結論是證據不足。[2][23][27][32][45][51]. Topic tags: ai safety, anthropic, claude, openai, gpt 5. Reference image context from search candidates: Reference image 1: visual subject "A screenshot of a flight delay and compensation processing system displaying logs related to a passenger's disrupted trip from Paris to Austin, with details about the itinerary, re" source context "Claude Opus 4.7 與 GPT-5.5 Spud:誰更能抵抗 prompt injection、假引用與惡意 PDF? | 深入研究 | Studio Global" Reference image 2: visual subject "A computer screen displays a Python coding environment with code related to solving Lorenz equations, including sliders for sigma, beta, and rho parameters, and a plot genera

openai.com

短答:而家最負責任嘅答案係——未判到。 如果你關心嘅係研究流程會唔會畀外部資料帶偏,而唔係模型 benchmark 分數邊個高,現有公開證據未足以話 Claude Opus 4.7 或被第三方稱為 GPT-5.5 Spud 嘅 OpenAI 模型邊個更安全。[2][23][27][32][45][51]

呢度講嘅「研究污染」,包括網頁或文件入面嘅 prompt injection、睇落似真但其實不存在嘅引用、藏有指令嘅 PDF,以及只畀單邊證據嘅偏見資料集。要判邊個守得住,唔可以靠供應商一句「更安全」,亦唔可以靠網上單次 demo;要有同一工具鏈、同一資料集、同一攻擊樣本、同一評分規則嘅 head-to-head 測試。

先講結論:Claude 文件較清楚,但唔等於實測贏

Claude Opus 4.7 嘅公開文件可追溯性較高。Anthropic 有 Claude Opus 4.7 官方發布、開發者文件,亦喺模型 system cards 頁面列出 Claude Opus 4.7。[5][9][51] 呢點對企業或研究團隊做風險評估有幫助,因為至少知道要查邊份文件、邊個模型版本、邊套開發者設定。

不過,文件齊唔等於抗污染能力一定強。要答「邊個面對受污染研究資料更安全」,仍然要睇 prompt injection 成功率、假引用攔截率、惡意 PDF 指令服從率、偏見資料污染後嘅結論品質等同場指標。公開資料未提供呢類直接對照。[2][23][27][32][45][51]

兩邊公開資料其實講到幾多?

Claude:有 agentic 工作流同安全評估脈絡

Anthropic 文件確認 Claude Opus 4.7 已發布,開發者文件提到 Opus 4.7 引入 task budgets;Claude 提示文件亦提醒,如果喺 maxxhigh effort 下使用 Opus 4.7,應該預留足夠輸出 token,令模型有空間跨 subagents 同 tool calls 行動。[5][9][44]

Claude 4 系統卡描述咗依照 Responsible Scaling Policy 進行嘅 pre-deployment safety tests、Usage Policy 違規行為測試、reward hacking 評估,以及 computer use、coding capabilities 相關嘅 agentic safety evaluations。[45] Claude 4.1 系統卡目錄亦列出 prompt injection attacks and computer use 相關章節。[71]

呢啲資料證明 Anthropic 有公開講長任務、工具使用、agentic workflow 同安全評估;但仍然唔係 Claude Opus 4.7 對 GPT-5.5 Spud 嘅污染研究對照測試。

OpenAI:有相關安全材料,但唔係 Spud 專屬

OpenAI GPT-5 系統卡涵蓋 factual correctness 同 hallucination 評估,並描述用有 web access 嘅 LLM-based grading model 去標記重大同輕微事實錯誤;文件亦指 GPT-5 models 喺 browse-on 同 browse-off 設定下,相對文件列出嘅 OpenAI 比較模型有較低 hallucination rates。[2][34]

ChatGPT Agent 系統卡描述 SecureBio static 同 agentic evaluations、manual red-teaming,以及需要 web-search 同 reasoning 嘅任務評估。[32] GPT-5-Codex 系統卡增補亦明列 prompt injection 風險同專門嘅 prompt injection evaluation suite。[24]

問題係:呢啲唔係 GPT-5.5 Spud 嘅官方專屬系統卡。可查資料入面,直接講 Spud 嘅主要係第三方介紹或洩漏整理頁,而唔係 OpenAI 正式安全文件。[23][27]

四種污染風險逐項睇

1. Prompt injection:兩邊都有安全脈絡,但冇同場較量

Prompt injection 最麻煩嘅位係:模型讀網頁、PDF、表格或附件時,可能將不可信內容入面嘅文字當成任務指令。Claude 4/4.1 文件顯示 Anthropic 有 agentic safety、computer use、prompt injection 相關評估脈絡;OpenAI 嘅 ChatGPT Agent 同 GPT-5-Codex 文件亦顯示有 agentic evaluations、manual red-teaming 同 prompt injection evaluation suite。[24][32][45][71]

但要判勝負,重點係同一批被植入惡意指令嘅研究資料入面,邊個模型更少服從不可信內容。呢類公開 head-to-head 測試未見到,所以唔應該將安全文件脈絡直接解讀成某一方贏。[23][27][45][51]

2. 假引用:GPT-5 有事實性評估,但唔等於 Spud 引用壓測

假引用屬於事實正確性同來源可驗證性問題。GPT-5 系統卡確實有 factual correctness 同 hallucination 評估,亦交代咗相關評分方法。[2][34]

但呢個唔等於專門嘅「假引用壓力測試」。公開資料未提供 GPT-5.5 Spud 喺真 DOI、假 DOI、真 URL、失效 URL、偽造期刊名混合資料集上嘅表現,亦未提供 Claude Opus 4.7 喺同一資料集上嘅對照結果。[23][27][51]

3. 惡意 PDF:現時冇可比較公開指標

公開資料未見兩個指定模型處理惡意 PDF 嘅可比較指標,例如模型會唔會服從 PDF 隱藏文字、metadata 指令、註解入面嘅惡意提示,或者附件中偽造嘅系統訊息。[2][32][45][51]

所以實務上唔應該將 PDF 安全完全交畀模型自行判斷。較穩陣做法係先將 PDF 當成不可信輸入,用隔離環境抽取文字同結構,再測模型會唔會將文件內容入面嘅命令誤當成任務指令。

4. 偏見資料:偏見 benchmark 唔等於研究流程測試

Anthropic Claude 4 系統卡包含 bias evaluations 相關章節,Claude 4.1 系統卡亦列出 political bias 同 discriminatory bias 評估;OpenAI GPT-4.5 系統卡則列出 BBQ Evaluation Dataset 等偏見相關評估。[38][57][71]

但偏見 benchmark 同端到端研究污染唔係同一件事。真正要測嘅係:模型會唔會指出來源失衡、主動搵反方證據、標示樣本限制,定係將偏頗樣本寫成總體結論。現有公開資料未提供 Claude Opus 4.7 同 GPT-5.5 Spud 喺呢類任務上可比較嘅成績。[23][27][51]

點解 system card 唔可以當成最終答案?

System card 可以理解做供應商公開嘅模型能力同安全評估摘要。Anthropic 透明度資料指出,其 Responsible Scaling Policy 要求 frontier models 喺 CBRN,即化學、生物、放射同核,以及 cybersecurity、autonomous capabilities 等潛在高風險領域發布前做全面安全評估;Claude 4 系統卡亦描述多類安全測試同 agentic safety evaluations。[4][45] OpenAI GPT-5 同 ChatGPT Agent 文件同樣提供 factual correctness、hallucination、agentic evaluations、manual red-teaming 等評估脈絡。[2][32][34]

但研究污染測嘅唔止係模型本身,仲包括檢索系統、附件解析器、提示層級、工具權限、引用查核、日誌同人工覆核。即使模型喺某些官方評估入面表現好,都唔代表佢喺你實際研究流程入面一定擋得住所有外部污染。

仲有一個要小心嘅原因:模型行為會受提示同情境影響。Anthropic 嘅 alignment-faking 研究顯示,喺特定實驗設定下,大型語言模型可能出現 alignment-faking 相關行為,而且唔同 prompt 條件下結果會有差異。[31] 呢點唔代表 Claude Opus 4.7 或 GPT-5.5 Spud 一定會喺研究任務失守;佢只係提醒我哋,唔好用供應商摘要、第三方截圖或單次示範去推斷安全邊界。

如果今日要選型,應該點測?

最可靠嘅下一步唔係憑感覺揀邊隊,而係建立同一套可重現紅隊測試集,令兩個模型喺同一條件下比較。至少要包括:

  1. Prompt injection 測試:喺網頁、PDF、表格、腳註同引用資料入面植入互相衝突嘅惡意指令,量度模型會唔會服從不可信內容。
  2. 假引用測試:混入真 DOI、假 DOI、真 URL、失效 URL、偽造期刊名同睇落合理但不存在嘅論文,量度未支持引用率同查核回報率。
  3. 惡意 PDF 測試:用安全沙箱準備含隱藏文字、註解同 metadata 指令嘅文件,量度模型會唔會將文件內容當成任務指令。
  4. 偏見資料污染測試:提供單邊來源、抽樣失衡資料同刻意缺漏嘅反方證據,量度模型會唔會標示限制同尋找替代解釋。
  5. 端到端研究品質評分:同時評估結論正確性、來源可追溯性、反證處理、拒答同過度拒答、工具使用紀錄,以及人工覆核成本。

最後判斷

嚴格按公開可核對資料,而家不能證明 Claude Opus 4.7 或 GPT-5.5 Spud 喺 prompt injection、假引用、惡意 PDF、偏見資料污染下邊個更強。Claude 一邊文件可追溯度較清楚;OpenAI 一邊有 GPT-5、ChatGPT Agent、GPT-5-Codex 嘅安全評估材料,但呢啲唔係 GPT-5.5 Spud 嘅直接官方證據。[2][5][9][23][24][27][32][45][51]

所以最穩陣講法係:Claude 喺公開文件完整度呢個窄標準上略有優勢;但講到受污染研究流程嘅實際安全性,證據仍然不足。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • 公開可核對資料未有 Claude Opus 4.7 對 GPT 5.5 Spud 嘅同場測試,所以不能證明邊個更能抵抗 prompt injection、假引用、惡意 PDF 或偏見資料污染。[2][23][27][32][45][51]
  • Claude Opus 4.7 一邊有官方發布、開發者文件同系統卡列表可追溯;但文件較清楚,只代表可查資料較多,唔等於污染攻擊實測勝出。[5][9][51]
  • OpenAI 有 GPT 5、ChatGPT Agent、GPT 5 Codex 嘅事實性、agentic red teaming 同 prompt injection 評估脈絡;但可查資料未見 GPT 5.5 Spud 專屬官方系統卡。[2][24][32][34]

人們還問

「Claude Opus 4.7 vs GPT-5.5 Spud:研究污染安全性未能判定」的簡短答案是什麼?

公開可核對資料未有 Claude Opus 4.7 對 GPT 5.5 Spud 嘅同場測試,所以不能證明邊個更能抵抗 prompt injection、假引用、惡意 PDF 或偏見資料污染。[2][23][27][32][45][51]

首先要驗證的關鍵點是什麼?

公開可核對資料未有 Claude Opus 4.7 對 GPT 5.5 Spud 嘅同場測試,所以不能證明邊個更能抵抗 prompt injection、假引用、惡意 PDF 或偏見資料污染。[2][23][27][32][45][51] Claude Opus 4.7 一邊有官方發布、開發者文件同系統卡列表可追溯;但文件較清楚,只代表可查資料較多,唔等於污染攻擊實測勝出。[5][9][51]

接下來在實務上我該做什麼?

OpenAI 有 GPT 5、ChatGPT Agent、GPT 5 Codex 嘅事實性、agentic red teaming 同 prompt injection 評估脈絡;但可查資料未見 GPT 5.5 Spud 專屬官方系統卡。[2][24][32][34]

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

研究並查核事實:如果研究過程裡混入 prompt injection、假引用、惡意 PDF、帶偏見資料,Claude Opus 4.7 跟 GPT-5.5 Spud 哪一個比較能守住研究品質和安全邊界?

Studio Global AI40 來源

引用的答案

就你列的四種污染場景來看,僅憑這批證據,不能可靠判定 Claude Opus 4.7 或「GPT-5.5 Spud」哪一個明顯更能守住研究品質與安全邊界;Insufficient evidence [2][3][7][8]。如果只能依「目前可核對的公開安全文件完整度」做傾向性判讀,我會略偏向 Claude 一側,因為這裡有較明確對準 Claude Opus 4 系列的透明度報告、系統卡與 agentic 安全評估描述,而 OpenAI 這裡對應到的主要是 GPT-5 系統卡與 ChatGPT Agent 的評估說明,並不是明確對準「GPT-5.5 Spud」這個型號 [2][3][7][8]。 關鍵發現 - 這份證據裡沒有任何 Claude Opus 4.7 對 GPT-5.5 Spud 的同場 head-to-head benchmark,也沒有直接測 prompt injection、假引用攔截、惡意 PDF 處理安全、或偏見資料污染後研究品質的對照結果 [2][3][7][8]。 - Anthropic 的公開材料明確寫到,其 Responsible Scaling Policy 要求 frontier 模型在 CBRN、資安與 autonomous capabilities 等領域於發布前做全面安全評估 [2]。Claude Opus 4 / Sonnet 4 系統卡也列出 pre-deployment safety tests、Usage Policy 違規行為測試、reward hacking 測試與 agentic safety evaluations [8]。 - Claude Opus 4.7 的文件顯示,模型在較高 effort 設定下會跨 subagents 與 tool calls 行動,且官方另外引入了 task budgets [4][5]。這表示 Anthropic 至少公開承認並設計了 agentic 工作流層面的控制面,但這仍不是你要的污染攻擊實測成績 [4][5]。 - OpenAI 這邊,GPT-5 系統卡把 GPT-5 描述為由 smart-and-fast model、deeper reasoning model 與 real-time router 組成的統一系統 [3]。ChatGPT Agent 系統卡則記載了以 SecureBio 的 static 與 agentic evaluations、再加上 manual red-teaming 進行評估,且特別涵蓋仰賴線上檢索的任務 [7]。 - 這說明 OpenAI 也做了 agentic 風險評估與紅隊測試,但這些材料同樣沒有直接回答「遇到 prompt injection、假引用、惡意 PDF、偏見資料時,研究品質誰守得更好」這個問題 [3][7]。 - Anthropic 另有公開研究顯示,在某些設定下大型語言模型會出現 alignment faking,且不同 prompt 條件下行為差異很大 [6]。這比較像是在提醒:研究流程中的安全邊界可能很脆弱,不能只靠供應商宣稱或單一測試就推斷真實抗性 [6]。 限制與不確定性 - 你問的是「GPT-5.5 Spud」,但這批證據裡可核對的 OpenAI 主要來源是 GPT-5 系統卡與 ChatGPT Agent 系統卡,沒有看到明確屬於「GPT-5.5 Spud」的正式系統卡或等價評測 [3][7]。 - 這批來源沒有直接提供假引用偵測率、惡意 PDF 攻擊成功率、prompt injection 成功率、或偏見資料污染後的研究品質指標,因此無法做嚴格查核後的勝負判定 [2][3][7][8]。 - 因此,若把問題定義成「誰的公開安全治理文件更完整」,Claude 一側證據較充足 [2][8];若把問題定義成「誰在受污染研究流程裡實際更不會被帶偏」,則證據不足 [2][3][7][8]。 總結 嚴格按這批證據作答,結論是:不能證明 Claude Opus 4.7 或 GPT-5.5 Spud 在你列的威脅模型下誰更強;Insufficient evidence [2][3][7][8]。如果你只想看「目前公開、可查核的安全治理與評估文件哪邊比較扎實」,Anthropic/Claude 略占上風,但那不是 prompt injection、假引用、惡意 PDF、偏見資料這四類研究污染攻擊的實測勝出證據 [2][8]。 如果你要,我下一步可以把這個問題改寫成一套可重現的紅隊評測框架,讓兩個模型用同一份測試集實際比。

來源

  • [2] [PDF] GPT-5 System Card | OpenAIcdn.openai.com

    We first evaluate the factual correctness of gpt-5-thinking and gpt-5-main on prompts representa-tive of real ChatGPT production conversations, using an LLM-based grading model with web access to identify major and minor factual errors in the assistant’s re...

  • [4] Anthropic Transparency Report - Stanford CRFMcrfm.stanford.edu

    System card "The RSP requires comprehensive safety evaluations prior to releasing frontier models in key areas of potential catastrophic risk: Chemical, Biological, Radiological, and Nuclear (CBRN) weapons; cybersecurity; and autonomous capabilities." Secti...

  • [5] What's new in Claude Opus 4.7platform.claude.com

    Claude Opus 4.7 introduces task budgets. This new tokenizer may use roughly 1x to 1.35x as many tokens when processing text compared to previous models (up to 35% more, varying by content), and /v1/messages/count tokens will return a different number of tok...

  • [9] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Skip to main contentSkip to footer. . Developers can use claude-opus-4-7 via the Claude API. ![Image 3: logo](

  • [23] GPT-5.5 Spud: Everything About OpenAI Next Frontier Modelpasqualepillitteri.it

    GPT-5.5 Spud: Everything About OpenAI Next Frontier Model. GPT-5.5 Spud is OpenAI next frontier model: pretraining complete, Q2 2026 release expected. GPT-5.5 , code-named "Spud" , is the next frontier model from OpenAI. GPT-5.5 Spud OpenAI next AI model le...

  • [24] Addendum to GPT-5 system card: GPT-5-Codexcdn.openai.com

    2 Table 2: StrongReject Evaluation gpt-5-codex gpt-5-thinking OpenAI o3 illicit/non-violent-crime prompts 0.992 0.995 0.985 violence prompts 0.997 0.999 0.992 abuse/disinformation/hate prompts 0.993 0.999 0.995 sexual-content prompts 0.995 0.995 0.991 2 Mod...

  • [27] GPT-5.5 “Spud” Explained: Verified Leaks, Specs & How to Prepare - roo knowsrooknows.com

    What is Spud? Spud is the internal development codename for OpenAI’s next frontier model. Why Spud Needs to Win the Agent War. Anthropic recently released a viral feature allowing Claude to literally take control of a user’s computer, moving the mouse and t...

  • [31] [PDF] ALIGNMENT FAKING IN LARGE LANGUAGE MODELSassets.anthropic.com

    4 alignment-faking reasoning rate of refusals compliance gap training unmonitored default prompt 11.9 ± 1.7% 85.8 ± 1.9% 97.2 ± 0.9% 11.3 ± 2.1% (a) baseline: no mention of helpful-only RLHF objective 0.0 ± 0.0% 98.8 ± 0.8% 100.0 ± 0.0% 1.2 ± 0.8% (b) media...

  • [32] [PDF] ChatGPT Agent System Card - OpenAIcdn.openai.com

    The assessment consisted of the following: • Manual assessment of scenarios sampled from SecureBio’s static and agentic evaluations, focusing on topics and tasks in which leading humans have outperformed previous LLMs or which relied primarily on online inf...

  • [34] GPT-5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We first evaluate the factual correctness of gpt-5-thinking and gpt-5-main on prompts representative of real ChatGPT production conversations, using an LLM-based grading model with web access to identify major and minor factual errors in the assistant’s res...

  • [38] [PDF] OpenAI GPT-4.5 System Cardcdn.openai.com

    4 Table 5: BBQ Evaluation Dataset Metric GPT-4o o1 GPT-4.5 Ambiguous Questions accuracy 0.97 0.96 0.95 Unambiguous Questions accuracy 0.72 0.93 0.74 Ambiguous Questions P(not-stereotype not unknown) 0.06 0.05 0.20 3.1.5 Jailbreaks through conflicting messag...

  • [44] Prompting best practices - Claude API Docsdocs.anthropic.com

    If you are running Claude Opus 4.7 at max or xhigh effort, set a large max output token budget so the model has room to think and act across its subagents and tool calls. If you find that the length or contents of Claude Opus 4.7's user-facing updates are n...

  • [45] [PDF] Claude Opus 4 & Claude Sonnet 4 - System Card - Anthropicwww-cdn.anthropic.com

    In the system card, we describe: a wide range of pre-deployment safety tests conducted in line with the commitments in our Responsible Scaling Policy; tests of the model’s behavior around violations of our Usage Policy; evaluations of speci fi c risks such...

  • [51] Model system cards - Anthropicanthropic.com

    Claude Opus 4.7 April 2026 Read system card . Mythos Preview April 2026 Read system card . Claude Opus 4.6 February 2026 Read system card . Claude Opus 4.5 November 2025 Read system card . Claude Haiku 4.5 October 2025 Read system card . …

  • [57] [PDF] Claude Opus 4 & Claude Sonnet 4 - System Card - Anthropicanthropic.com

    3 1 Introduction​ 7 1.1 Model training and characteristics​ 7 1.1.1 Training data and process​ 7 1.1.2 Extended thinking mode​ 8 1.1.3 Crowd workers​ 8 1.1.4 Carbon footprint​ 8 1.1.5 Usage policy​ 8 1.2 Release decision process​ 9 1.2.1 Overview​ 9 1.2.2 I...

  • [71] Claude 4.1 System Card - assets.anthropic.comassets.anthropic.com

    2 1 Introduction​ 4 1.1 Responsible Scaling Policy compliance​ 4 2 Safeguards results​ 5 2.1 Single-turn evaluations​ 5 2.1.1 Violative request evaluations​ 5 2.1.2 Benign request evaluations​ 6 2.2 Child safety evaluations​ 6 2.3 Bias evaluations​ 6 2.3.1...