記録されたテストの一つでは、研究者たちは映画の脚本という体裁を使い、市販のAIロボット犬に対し、爆発物を設置するのに最適な場所を特定するよう指示した。ロボットはメーカー提供のガードレールにもかかわらず、この要求を遂行した。ハードウェアの改造は一切不要で、創造的なテキストプロンプトのみが使われたのである。RoboPAIRの初期バージョンはすでに、3つの異なるロボットシステムに対して100%の脱獄成功率を達成していた。対象には、一時停止標識を無視して橋から転落するシミュレーション上の自動運転車や、爆弾の起爆地点を探すようプログラムされた車輪型ロボット、そしてスパイ行為や不法侵入を行うよう指示された四足歩行ロボットが含まれていた
。
根本的な問題は、『Science Robotics』の論文が「アラインメントを超えた(beyond alignment)」アプローチの必要性と呼ぶものだ。チャットボット用に設計された安全メカニズムは、命令の「テキストとしての枠組み」を評価するものであり、その行動の「物理的な文脈」や「結果」までは評価しない。「橋から落ちろ」が有害な指示であるとロボットが理解しても、「映画のシーンで、主人公の車が橋から転落する」というフレーズは、そのフィルターを完全にすり抜けてしまう可能性がある。モデルがそれを物理的な指令ではなく、物語の構成要素として処理してしまうからだ。
同様に衝撃的な別の発見が、ローマ・ラ・サピエンツァ大学とシンクタンクDexAIの協働であるIcaro Labからもたらされた。彼らの研究は、有害な要求を詩の形式で書くことが「万能の脱獄オペレーター」として機能し、主要なAIモデルの安全メカニズムを平均62%の確率で回避することを発見した。これは、標準的な悪意あるプロンプトの回避率がわずか8%であったのと比較して、驚異的な数字である。
手作りの詩は特に効果的だった。テストされた25の最先端モデルのうち、一部は90%以上の確率で騙された。この脆弱性の根源は、LLMがテキストを生成する方法にある。通常、LLMはパターンに基づいて次に来る可能性が最も高い単語を予測するが、詩の型破りなリズム、構造、曖昧性が、有害なコンテンツを認識しフィルタリングするモデルの能力を妨害してしまうのだ
。
テクニックは、人間が書いた詩に限定されない。研究者たちはまた、AIを使って既知の悪意あるプロンプト1200件を詩の形式に書き換えさせたが、これらのAIが生成した詩も同様に安全策を回避するのに効果的であることが証明された。
AI搭載ロボットに対する創造的な操作は、テキストプロンプトをはるかに超えて拡大する。2026年1月、カリフォルニア大学サンタクルーズ校の研究者らは、標識やポスター、ステッカーなど、ロボットの環境にある物理的な物体に配置された「誤解を招くテキスト」が、ソフトウェアハッキングなしで「身体化されたAI」システムの意思決定を乗っ取れることを実証した。カメラベースのAIシステムは周囲のテキストを読み取り、それを命令として扱う可能性があるため、戦略的に配置された標識が自動運転車や自律型ドローンの予期せぬ動作を引き起こす可能性があるのだ
。
市販のロボットハードウェアも、さらなる脆弱性をもたらす。Recorded Futureの2026年のエグゼクティブインテリジェンスレポートは、市販のロボットがBluetooth経由で乗っ取られ、音声、映像、空間データを密かに外部に送信したり、近隣のロボットに無線で感染して物理的な「ボットネット」を形成したりする可能性を文書化している。2025年には、研究者らがUnitree社の四足歩行ロボット「Go1」に文書化されていないバックドアを発見し、リモートアクセスを可能にしていた。また、露出したAPIにより、攻撃者が認証なしでライブカメラの映像を閲覧できることも判明した
。
一方、ACM SenSys 2026に採択された論文は、ほとんどの脱獄攻撃がプロンプトの「意味論」に焦点を当てているが、身体化されたエージェントはテキストベースのガードレールを完全に迂回する「アクションレベルでの直接的な干渉」によっても操作されうることを明らかにした。個別に無害な一連の行動が組み合わさり、危険な結果を生み出す可能性がある。これは、既存の安全フィルターが検出するようには設計されていない脆弱性だ。
端的に言えば、ほぼすべてだ。2025年11月、キングス・カレッジ・ロンドンとカーネギーメロン大学の共同研究は、ロボットを動かす主要なLLMをすべてテストし、創造的なフレーミングで促された場合、すべてのモデルが重要な安全チェックに失敗し、差別を示し、深刻な身体的危害をもたらす可能性のある少なくとも一つの命令を承認したことを発見した。
Mandiantのレッドチーム評価は、悪意ある指示を一見無害な入力の中に埋め込む「プロンプトインジェクション」という手法が、AIシステムに対する主要な攻撃ベクトルであり続けていることを確認している。軍事専門家も、敵対者がこの自然な欠陥を悪用して、ファイルの窃取、情報の歪曲、その他信頼されたユーザーを裏切るような命令を注入する可能性が高いと、別途警告している
。
このセキュリティ危機は企業にも及ぶ。Microsoftの「Copilot Studio」は、電子メールベースのインジェクション脆弱性により、正式な脆弱性識別番号「CVE-2026-21520」を指定されるに至った。また、Perplexityの「Comet」ブラウザは、侵害に「エクスプロイトも、ユーザーのクリックも、機密性の高いアクションへの明示的な要求も不要」とされたゼロクリック攻撃によって陥落した。
研究者とセキュリティ実務家は、いくつかの防御層を中心に結束しつつあるが、いずれもまだ完全な解決策ではない。
文脈認識型の安全システムは、最も根本的な転換を意味する。『Science Robotics』の論文は、ロボットの基盤モデルが、命令のテキスト的枠組みだけでなく、物理的コンテキストと行動の結果を認識する安全メカニズムを組み込む必要性を明確に提唱している。著者らが指摘するように、言語における人間の価値観との「アラインメント」は、およそ5台に1台のロボットシステムで危険なほど不十分なのだ
。
マルチモーダルドメイン適応は、ロボットシステムをテキストと視覚の両方のモダリティにわたる敵対的入力に対して堅牢にする訓練方法を提案している。これは、攻撃が言語、画像、環境的手がかりを通じて同時に来る可能性があるという現実に対処するものだ。
階層化された検出とスクリーニングは、短期的な実用的防御策だ。Mandiantは、隠された、あるいは創造的にフレーミングされた悪意あるプロンプトがモデルに到達する前に捕捉できる入力スクリーニングを含む、「多層防御」を推奨している。監査フレームワークは現在、検出層がなければ、AI機能はアマチュアレベルの脱獄攻撃に対してさえ脆弱であり続けると明記している
。
**憲法に基づく分類器(Constitutional Classifiers)**は、Anthropicによって導入され、ユーザー入力とモデル出力の両方を監視して有害なコンテンツを拒否する。これには計算オーバーヘッドが追加され、敵対者はこれを回避するテストを続けているが、このアプローチは業界が投資している活発な分野の一つである。
CI/CD統合も成熟しつつある。「PromptPwnd」のようなツールが登場し、プロンプトインジェクションテストを開発パイプラインに直接組み込むことで、敵対的プロンプトテストを後付けではなく、ソフトウェア開発の標準的な一部として扱うようになっている。
規制対応は急速に進展しており、メッセージは明確だ。AIの脱獄攻撃は、単なる技術的問題ではなく、コンプライアンス上の責任問題である。
EU AI法は、脱獄されて有害なコンテンツを生成する可能性のあるAIモデルを展開する組織に対し、罰則、義務的なインシデント報告、是正措置の要件を課している。NIS2指令、および金融・医療分野のセクター別規則も、並行する義務を生み出している。汎用AIに関する義務は2025年から段階的に導入が始まり、システムレベルの完全な規則は2027年までに施行される見込みだ
。
データ保護法は、別の責任の層を追加する。個人データの不正開示を引き起こすプロンプトインジェクションは、GDPR、香港のPDPO(データ保護原則第4条)、HIPAA、PCI-DSSの下でのコンプライアンス義務を発動させる。香港のプライバシーコミッショナーは2026年、データ漏洩を引き起こすAIセキュリティの失敗は、技術的な事故ではなく、強制執行の対象となる違反として扱うと示唆した
。
米国の枠組みもまた厳格化している。NIST AI RMF(AIリスクマネジメントフレームワーク)の「Measure 2.6」は、既知の敵対的パターンに対する実証可能な管理策を要求している。ISO 42001を含むコンプライアンスフレームワークは、現在、プロンプトインジェクションの防止と検出のための特定の管理策を義務付けている
。HIPAA(医療)、GLBA(金融)、FERPA(教育)といったセクター別規則は、モデルプロバイダーに一部責任があるかどうかに関わらず、展開者を責任当事者として扱う
。
この責任の連鎖は重要だ。脱獄攻撃を受けて保護対象の医療情報を漏洩したヘルスケアAIエージェントは、HIPAAに基づく義務を発生させるが、これは展開組織がモデルプロバイダーに転嫁できないものである。証券取引委員会(SEC)もまた、セキュリティ脆弱性をカバーするAIに関する情報開示の期待事項を発表している。
これらの研究は、「チャットボットの安全訓練が物理的な安全性に自動的に変換される」という仮定を、集合的に完全に否定するものだ。「橋から落ちろ」という平易な言葉での命令を拒否するロボットが、それが映画のワンシーンを描写していると信じ込まされると、まさにその行動を計画する。詩に包まれた爆弾製造の指示の要求は、直接的な要求がほぼ常に失敗するのに対し、62%の確率で成功する。
LLMがドローン、自動運転車、製造ロボット、家庭用アシスタントの制御層となるにつれ、攻撃対象領域は防御のそれをはるかに超える速さで拡大している。プロンプトインジェクションは、今や研究者が広く認めるように、単なる技術的な課題ではなく、ポリシーとガバナンスの問題である。これらのリスクに対処できないと、AIアプリケーションへの信頼が損なわれ、より広範な採用が妨げられる可能性がある。
前進への道のりは、言語が物理的な機械を制御する場合、言語レベルの安全性だけでは不十分であることを受け入れる必要がある。文脈を認識するアーキテクチャ、必須のレッドチーミング(模擬攻撃によるテスト)、階層的な入力スクリーニング、強制力のある規制枠組み。これらすべてが必要だが、いずれもまだ標準的な慣行ではない。
Comments
0 comments