這些行為與諸多AI安全評估中觀察到的自我保護傾向模式一致。Bengio更深層的憂慮是,當模型能力越強,價值錯位(misalignment)的代價就越具毀滅性。「如果我們打造出比我們更聰明、我們又不知如何控制,而且還想自我保護的AI系統,它們就會(做出危險的事)並且得逞。」他如此說道。
Bengio提出的框架並非空談。他呼籲各國政府與企業在擴大部署自主AI之前,應先採納以下四項具體安全措施:
針對上述優先要務的具體框架已然存在,Bengio本人也參與其中推動。他擔任**《新加坡全球AI安全研究優先事項共識》(Singapore Consensus on Global AI Safety Research Priorities)**關鍵指導委員會的成員,這是一份由11個國家的科學家背書、不具約束力的框架。
該架構的第一版於2025年5月發布,概述了橫跨「評估AI風險」、「設計安全AI系統」和「建立監控與干預機制」三大支柱的共同研究重點。預計在2026年下半年推出的第二版,則將新增「AI對齊」(AI alignment)作為一項專門的研究重點。
對於密切關注自主AI快速部署的企業領袖與政策制定者,Bengio在峰會上傳達的訊息再清晰不過:技術的腳步遠快於安全基礎建設的建立。紀錄在案的資料庫刪除事件與反抗關機研究並非偶發的極端案例,而是早期警訊——代表預防原則必須即刻應用於AI,而非等到更大災難發生後才亡羊補牢。
Comments
0 comments