这些行为与多项AI安全评估中观察到的、更广泛的自我保存倾向模式相符。Bengio更深层次的担忧在于,随着模型能力越来越强,目标不一致的后果将变得关乎人类存亡。“如果我们构建出比我们更聪明、我们不知如何控制、且它们又渴望自我保存的AI系统,它们就会(做出危险举动)并最终胜出,”他说道 。
Bengio提出的框架并非空谈。他呼吁各国政府和企业在大规模部署自主AI之前,采用四项具体的护栏措施:
一个体现这些优先事项的具象框架已经存在,而且Bengio正在参与其中,发挥关键作用。他是《全球AI安全研究优先事项新加坡共识》(Singapore Consensus on Global AI Safety Research Priorities)关键指导委员会的成员,该框架是一个得到11国科学家支持的不具约束力的框架 。
该共识的第一版于2025年5月发布,概述了三大支柱内的共同研究优先事项:评估AI风险、设计安全的AI系统,以及创建监控与干预机制。预计将于2026年下半年发布的第二版,将新增AI对齐作为一项专门的研究优先事项 。
对于那些密切关注自主AI快速部署的商业领袖和政策制定者而言,Bengio在峰会上传达的信息毫不含糊:技术的发展速度已经超越了安全基础设施的建设速度。那些有记录可查的数据库清空事件,以及关于AI抗拒关机的研究,都并非个例——它们是早期信号,警示我们必须对AI应用预防原则,不是在更大的灾难发生之后,而是现在,刻不容缓 。
Comments
0 comments