此路線圖的核心是 TRAIT&R 分類法——全稱為「流氓 AI 戰術與常規分類法」(Taxonomy of Rogue AI Tactics and Routines),其靈感來自知名的網路安全框架 MITRE ATT&CK 。TRAIT&R 針對 AI 內部威脅進行了專門分類,為安全團隊提供了一套共通語言。
路線圖規劃了 15 項實用的控制措施,涵蓋偵測與回應兩個層面 。偵測等級從「思維鏈監控」一路延伸到「不透明推理審查」;回應等級則從「非同步審查」到「即時封鎖」。這種多層次的做法確保沒有單一故障點會危及整體安全。
該框架利用 可信的 AI 模型(即所謂的「監督」模型)來監控不可信 AI 代理的推理過程和行動。這些被認為是「簡單對齊」的監督模型,主要用於監控超過某個能力門檻的代理 ,形成了一個分層監控結構,讓較小、行為可預測的模型來監督更強大、更不確定的模型。
偵測與預防等級會 根據代理的能力進行校準。路線圖定義了多個「偵測等級」和「預防與回應等級」(例如 R1, R2, R3),這些等級會隨著模型能力增強而逐步提升。在最高等級 (R3) 下,模型被假定具備超越人類專家的網路安全能力,因此需要自動封鎖和即時干預 。
DeepMind 已經建立了一個 內部原型系統,該系統已掃描超過一百萬條 AI 代理的運作軌跡,目前正在即時監控 Gemini Spark 編碼代理。迄今為止,大多數警報源於代理對指令的誤解,而非蓄意破壞,但該系統會將可疑發現上報給人類審查員 。
一份獨立的 35 頁配套指南,名為《AI 代理安全的三個層面》(The Three Layers of Agent Security),為政策制定者提供了保護單一代理、多代理系統及更廣泛生態系統的建議。該指南呼籲進行標準化前工作、建立行業共識,並投入對代理身份與存取管理 (IAM) 的研究 。
這份路線圖旨在 融入 DeepMind 更廣泛的「前沿安全框架」(Frontier Safety Framework, FSF)。後者已經定義了針對高風險模型能力的「關鍵能力等級」(Critical Capability Levels, CCLs)。AI 控制路線圖則是在模型層級的 FSF 之下,增加了一個系統級別的安全層,構建出更全面的安全架構 。
Comments
0 comments