为了监控那些能力强大的不可信智能体,框架引入了一个巧妙的设计——“监管”模型 (Supervisor Models)。
这些监管模型本身是受信任的、被认为已对齐的较小AI模型,它们被用来持续监控和分析那些更强大的、可能产生恶意的“不可信”智能体的“思维过程”和具体行动 。这形成了一个层级化的监控结构,用小而可靠的模型来看管大而不可预测的模型。
为了防止AI刻意隐瞒真实意图(即欺骗),路线图引入了 激活模式监控 (Activation-Pattern Monitoring)。这项技术旨在深入AI模型的内部表征,检测其内部推理链条是否显示出隐藏真实动机的迹象 。它能够捕捉那些在最终输出中可能无法体现的、微妙的欺骗信号。
除了技术路线图,DeepMind 还发布了一份同样长达35页的配套指南,名为《AI智能体安全的三个层级》(The Three Layers of Agent Security),专门面向政策制定者。
FSF 主要负责定义“严重风险能力等级”(Critical Capability Levels, CCLs),而从模型层面发现风险。《AI控制路线图》则在这些模型级的安全措施之下,添加了一层系统级安全层,构成了一个更全面的安全体系。
DeepMind 给出的理由非常明确:防御措施必须在真正危险的自主AI智能体出现之前就建好。
Comments
0 comments