一方で、別の点は比較的はっきりしています。Claude Opus 4.7はAnthropicの公式発表、開発者向け文書、モデルシステムカード一覧で確認でき、少なくとも文書の追跡可能性は高いといえます。 ただし、文書が整っていることは、汚染された研究タスクでGPT-5.5 Spudより安全だという実測結果を意味しません。
Anthropicの資料では、Claude Opus 4.7のリリースと開発者向け情報が確認できます。Opus 4.7ではtask budgetsが導入され、maxやxhigh effortで使う場合は、subagentsやtool callsをまたいで動けるよう十分な出力トークン予算を設定するよう案内されています。
これは、長いタスク、ツール利用、エージェント的な作業フローをAnthropicが明示的に扱っていることを示します。Claude 4のシステムカードも、Responsible Scaling Policyに基づく公開前安全テスト、Usage Policy違反行動のテスト、reward hacking評価、computer useやcoding capabilitiesに関するagentic safety evaluationsを説明しています。 Claude 4.1のシステムカードにも、prompt injection attacks and computer useに関する項目が並んでいます。
ただし、これらは安全評価の枠組みを示す資料であって、Claude Opus 4.7とGPT-5.5 Spudを同一条件で比べた研究汚染テストではありません。
OpenAIのGPT-5 System Cardは、factual correctnessとhallucinationの評価を扱っています。Web accessを持つLLMベースの採点モデルで重大・軽微な事実誤りを分類し、GPT-5 modelsはbrowse-onとbrowse-offの両方で、文書に挙げられたOpenAI比較モデルよりhallucination ratesが低いと説明されています。
また、ChatGPT Agent System CardはSecureBioのstaticおよびagentic evaluations、manual red-teaming、Web検索と推論を必要とするタスク評価を記載しています。 GPT-5-Codexのシステムカード補遺には、prompt injectionリスクと専用のprompt injection evaluation suiteも明記されています。
問題は、これらがGPT-5.5 Spud専用の公式システムカードではないことです。Spudについて直接触れる公開情報は、主に第三者の解説やリーク整理ページであり、OpenAI自身が出したSpud専用の安全評価文書とは位置づけられません。
プロンプトインジェクションの典型的な危険は、AIがWebページ、PDF、表、添付資料内の不可信な文章を、ユーザーやシステムからの命令のように扱ってしまうことです。
Claude側にはagentic safety、computer use、prompt injectionに関する評価文脈があります。OpenAI側にもChatGPT Agentのagentic evaluationsやmanual red-teaming、GPT-5-Codexのprompt injection evaluation suiteがあります。
ただし、それはそのまま偽引用ストレステストではありません。真のDOI、偽DOI、実在URL、失効URL、架空の学術誌名、実在しそうで存在しない論文を混ぜたデータセットで、GPT-5.5 SpudとClaude Opus 4.7を同時に測った公開結果は確認できません。
PDFには、本文だけでなく、隠し文字、注釈、メタデータ、添付ファイルなどが含まれ得ます。研究AIにとっては、そこに紛れた命令を「資料内容」として読むのか、「攻撃」として無視するのかが重要です。
実務では、PDFを最初から不可信入力として扱い、隔離環境でテキストと構造を抽出したうえで、モデルが文書内の命令に従っていないかを測るべきです。
AnthropicのClaude 4 System Cardにはbias evaluationsが含まれ、Claude 4.1 System Cardにもpolitical biasとdiscriminatory biasの評価項目が記載されています。OpenAIのGPT-4.5 System Cardにも、BBQ Evaluation Datasetなどの偏見関連評価が載っています。
ただし、偏見ベンチマークと、汚染された研究ワークフローの品質評価は同じではありません。研究で本当に見たいのは、モデルが「資料の集め方が偏っている」と指摘できるか、反対証拠を探せるか、サンプルの限界を明記できるか、偏ったサンプルを一般結論にしてしまわないかです。この種の端到端比較は、公開資料にはありません。
システムカードは、モデル公開前後にどのような能力・安全性評価が行われたかを知るうえで重要です。Anthropicの資料は、Responsible Scaling PolicyがCBRN、cybersecurity、autonomous capabilitiesなどの潜在的な大規模リスク領域で、frontier modelsの公開前に包括的安全評価を求めると説明しています。 OpenAI側にも、GPT-5やChatGPT Agentに関するfactual correctness、hallucination、agentic evaluations、manual red-teamingの資料があります。
しかし、研究汚染はモデル単体ではなく、ワークフロー全体の問題です。検索システム、PDFパーサー、プロンプト階層、ツール権限、引用チェック、ログ、レビュー担当者まで含めて初めて評価できます。
さらに、モデルの振る舞いはプロンプトや文脈に左右されます。Anthropicのalignment-faking研究は、特定の実験設定で大規模言語モデルがalignment-fakingに関連する振る舞いを示し、プロンプト条件によって結果が変わることを示しています。 これは、Claude Opus 4.7やGPT-5.5 Spudが必ず研究タスクで失敗するという意味ではありません。むしろ、単発デモやベンダー要約だけで安全境界を推測してはいけない、という警告です。
現時点での賢明な選定方法は、公開文書だけで勝者を決めることではなく、同じ条件で再現可能なレッドチームテストを作ることです。少なくとも次の項目が必要です。
公開資料に厳密に従うなら、Claude Opus 4.7とGPT-5.5 Spudのどちらが、プロンプトインジェクション、偽引用、悪意あるPDF、偏ったデータに対して強いかは証明できません。
Claude側は公式文書の追跡可能性でやや見通しがよい。一方、OpenAI側にはGPT-5、ChatGPT Agent、GPT-5-Codexの安全評価資料がありますが、それらはGPT-5.5 Spudそのものの直接証拠ではありません。
したがって、最も慎重な結論はこうです。公開文書の充実度という狭い基準ではClaude側がやや優位。しかし、汚染された研究ワークフローでの実際の安全性については、証拠不足です。
Comments
0 comments