ロードマップの中核をなすのは**TRAIT&R(Taxonomy of Rogue AI Tactics and Routines)**です。これは、サイバーセキュリティ分野で広く使われるMITRE ATT&CKフレームワークに着想を得た、AI内部の敵対者に特化した戦術・手法を分類するための共通言語を提供します。
ロードマップは、検出と対応をカバーする15の実用的な制御策を層状に配置しています。検出層は思考連鎖(チェーン・オブ・ソート)監視から不透明な推論の精査まで、対応層は非同期レビューからリアルタイムブロッキングまでを段階的に展開します。この多層構造により、単一の障害点がセキュリティを損なわないように設計されています。
フレームワークは、**信頼できるAIモデル(監視役モデル)**を使用して、信頼できないエージェントの推論や行動を監視します。これらの監視役モデルは素直にアライメントされていると想定され、特定の能力閾値を超えるエージェントの監視に用いられます。これにより、より小規模で理解しやすいモデルが、より強力で予測不可能な可能性のあるモデルを監視する階層的な構造が作られます。
欺瞞(だまし)に対抗するため、ロードマップには活性化パターンの監視が含まれています。これは、エージェントの内部表現や推論の連鎖が、本来の意図を隠していることを示唆する場合にそれを検出する技術です。表面的な出力には現れない、操作や秘密の目標追求の微妙な兆候を捉えることを目的としています。
検出および防御レベルはエージェントの能力に合わせて調整されます。ロードマップは複数の「検出レベル」と「予防・対応レベル」(例:R1、R2、R3)を定義し、モデルの能力向上に応じて段階的に強化されます。最高レベル(R3)では、モデルが人間の専門家を超えるサイバーセキュリティ能力を持つと想定され、自動ブロッキングとリアルタイム介入が必要とされます。
DeepMindはすでに内部プロトタイプを構築しており、100万以上のエージェント軌跡をスキャンし、現在はGemini Sparkコーディングエージェントをライブで監視しています。これまでのアラートのほとんどは、意図的な妨害ではなく解釈の誤りに起因していますが、疑わしい発見は人間のレビューアーにエスカレーションされます。
別途用意された35ページのガイド(タイトル: 『The Three Layers of Agent Security』)は、政策立案者向けに、個別エージェント、マルチエージェントシステム、そしてより広範なエコシステムのセキュリティ確保に関する提言を行っています。標準化作業の事前準備、業界の合意形成、エージェントのアイデンティティとアクセス管理に関する研究開発を求めています。
このロードマップは、DeepMindの広範な**Frontier Safety Framework(FSF)**に組み込まれるように設計されています。FSFはすでに、深刻なリスクをもたらすモデル能力に対してCritical Capability Levels(CCLs)を定義しています。Control Roadmapは、モデルレベルのFSFの下にシステムレベルのセキュリティ層を追加し、より包括的な安全性アーキテクチャを構築します。
Comments
0 comments