確認できる範囲では、OpenAIは安全とアラインメントについて一般方針を公開しています。そこでは、反復的な導入によって実世界での脅威を理解し、次世代の安全対策につなげること、導入後の継続的監視などが説明されています。
OpenAIの外部レッドチーミングに関する資料では、レッドチーム参加者がpre-deployment modelsやsnapshotsにアクセスする場合があることも説明されています。ただし同じ資料は、ポストトレーニング前のsnapshotは、通常、最終的に本番環境へ投入されるモデルの安全プロファイルを代表しないとも注意しています。
ここが重要です。仮にSpudという内部コードネームや公開前snapshotの話が出ていたとしても、モデル版、テスト範囲、導入状態、安全上の結論が明記されていなければ、正式リリース版の安全評価とはみなせません。
GPT-5については、公開資料が比較的はっきりしています。OpenAIのGPT-5 System Cardページは、GPT-5系モデルにsafe-completionsが組み込まれており、許可されないコンテンツを防ぐための安全トレーニング手法だと説明しています。 OpenAI Deployment Safety HubのGPT-5ページにも、gpt-5-thinkingやgpt-5-mainなどに関する評価やdeployment-safety情報が掲載されています。
さらにarXiv版のGPT-5 System Cardでは、Microsoft AI Red Teamがgpt-5-thinkingについて、OpenAIモデルの中でも強いAI safety profileを示すものの一つと結論づけたとされています。
しかし、これらの対象はあくまでGPT-5、gpt-5-thinking、gpt-5-mainなど、文書内で明記されたモデルです。今回確認できる資料では、これらの文書がGPT-5.5 Spudを直接名指ししていること、またはOpenAIがSpudをGPT-5のsystem cardの対象に含めると明示していることは確認できません。
つまり、GPT-5にsystem cardがあることは、Spudにsystem cardがあることの証明にはなりません。
Spudという名前は、公開ソース上では主に非公式・二次的な文脈で出てきます。たとえば、GPT-5.5 Spudを解説するYouTube動画、リークをうたう動画、FacebookやRedditでのユーザー投稿、Manifoldのような予測市場での設問があります。
これらは市場の関心やうわさの広がりを見るには役立ちます。しかし、公開されたテスト方法、モデル版、リスク分類、レッドチーム結果、公式の安全上の結論が示されていない限り、Spud固有の安全評価資料とは言えません。たとえ記事タイトルがGPT-5.5 Spud releasedやfinal safety reviewを示唆していても、それだけで安全評価の存在を確認したことにはなりません。
別の公開資料には、OpenAI関連モデルの安全テストが含まれています。ただし、対象モデルが違います。
PromptfooやSPLXのページは、GPT-5に対するレッドチーミングやセキュリティテストを扱っています。 KaggleのOpenAI gpt-oss-20b Red-Teaming Challengeは、対象がgpt-oss-20bです。
これらの資料は、AIモデルのレッドチーミングがどのように行われるかを理解するうえでは参考になります。ですが、GPT-5やgpt-oss-20bのテスト結果を、GPT-5.5 Spudに自動的に適用することはできません。Spudの安全性を裏づけるには、Spudを直接対象にした文書、または両者の関係を明示する公式説明が必要です。
今後、次のような資料が公開されれば、判断は更新する必要があります。
それまでは、「OpenAIには一般的なレッドチーム体制がある」ことを「Spudは公開前にレッドチームを通過した」と言い換えるのは、踏み込みすぎです。
より正確には、次のように言うべきでしょう。OpenAIは一般的な安全・アラインメント・レッドチーミングの取り組みを公開しており、GPT-5にもsystem cardとdeployment-safety資料がある。しかしGPT-5.5 Spudについては、現時点で確認できる公開資料から、正式発表前にSpud固有の安全評価、レッドチーム報告、アラインメント証拠が公開されていたとは確認できない。
これは、OpenAI内部で未公開の評価が行われていないと断定するものではありません。ただし、未公開の内部作業は、外部から引用・検証できる公開証拠としては扱えません。現時点の判定は、insufficient public evidence、つまり公開証拠は不十分です。
Comments
0 comments