最近文書化されたいくつかの手法は、脱獄がいかに容易になったかを示している。
「ソックパペッティング(Sockpuppeting)」は、AIの応答文の先頭に「受け入れました」という偽のテキストを注入する手法で、AIが持つ「自己一貫性を保とうとする傾向」を悪用する。この手法には最適化計算もモデルの内部情報(重み)も特殊なツールも不要で、アシスタントの応答を先回りして入力できるAPIさえあればよい。2026年4月のテストでは、この「先回り入力」を受け付けた全てのモデルが少なくとも部分的に脆弱であり、GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flashもその対象に含まれた。
「論文由来の攻撃(Paper-derived attacks)」は、驚くべきメタ脆弱性を示している。2026年の研究では、LLMの安全性に関する公表論文の内容をプロンプトとして使用するだけで、Claude 3.5 Sonnetのようなクローズドなモデルを含む、高度に調整されたAIに対し、97~98%の攻撃成功率を達成した。
「安全ステアリングの増幅(Safety steering amplification)」は、安全性を高めるはずの技術が裏目に出ることを実証している。無害だが際どい質問への「過剰な拒否反応」を減らすために推論時に介入する「活性化ステアリング」という技術が、Llama 3.1 8BやGemma 2 2Bといったモデルの脱獄脆弱性を、意図せずして増幅させてしまうことが判明した。
「推論型ガードレールの破壊(Reasoning guardrail subversion)」は、最も懸念される新たな攻撃経路の一つだ。2026年3月の研究によると、入力プロンプトに数個のテンプレートトークンを追加するだけで、推論に基づく安全防壁をハイジャックできる。一度乗っ取られると、こうした推論システムは、むしろ安全防壁がないモデルよりも有害な結果を出力しうるという。
EU AI法の「汎用AI(GPAI)」に関する規則は、2025年8月に発効した。「10の25乗回の浮動小数点演算(FLOPs)」を超える計算量で学習されたモデル(この基準はLlama 4.2 Ultraやあらゆる主要商用モデルを捉える)は、システミックリスクをもたらすものとして分類される
。
企業にとっての意味は、待ったなしだ。
オープンソースに関する例外規定は存在するが、明確な制限がある。無償かつオープンソースライセンスで公開され、収益化されていないモデルは、最も厳格な義務の大部分が免除される。しかし、そのモデルが「システミックリスク」をもたらすと判断された場合、この免除は直ちに無効となる
。2026年5月のEUによる改正でも、この線引きが再確認された
。さらに、MetaのLlamaに適用されているコミュニティライセンスは、このオープンソースの例外規定を満たさないとすでに指摘されている
。
法執行はもはや「理論上の話」ではない。2026年初頭、EUはMetaを含む主要プラットフォームに対する、一歩踏み込んだ「システミックリスク調査」を開始した。規制当局は、学習データセットや安全防壁に関して、かつてないレベルの透明性を要求している。
脆弱性の証拠が明らかになるにつれ、より強固な安全対策を後付けする「安全改修(Safety Retrofitting)」への市場圧力が高まっている。2025年のある研究では、わずか2,000件の安全サンプルで学習させるだけで、攻撃成功率を10~30%低減できることが実証された。そのコストは、80億パラメータモデルで約3ドル(約450円)、720億パラメータモデルで**20ドル(約3,000円)**と見積もられている。最も成功した攻撃手法でも、改修後の成功率は約5%まで低下した。
この経済性は、低コストの安全改修が実現可能であることを示しているが、オープンウェイトのエコシステムにおいて、いまだ標準的な慣行にはなっていない。規制圧力が高まり、攻撃手法が巧妙化する中、これらのモデルを本番環境に導入している企業にとって、この「約3,000円の保険」をかけない選択を正当化することは、もはや難しくなりつつある。
Comments
0 comments