呢啲行為同多項AI安全評估中觀察到嘅自我保護傾向模式吻合。Bengio更深層嘅憂慮係,隨住模型變得越來越強大,失控嘅後果將會關乎生死存亡。佢話:「如果我哋建造出比我哋更聰明、但我哋又唔知點樣去控制、而且仲想保存自己嘅AI系統,佢哋會(做出危險嘅事)並且會贏。」
Bengio提出嘅框架唔係空泛理論。佢呼籲政府同企業喺大規模擴展自主AI之前,應該採納四項具體嘅防護措施:
一個實現上述優先事項嘅具體框架已經存在,而Bengio正協助塑造緊佢。佢係《新加坡AI安全研究全球共識》(Singapore Consensus on Global AI Safety Research Priorities)關鍵指導委員會嘅成員,呢個係一個獲11國科學家支持嘅非約束性框架。
2025年5月發布嘅第一版,概述咗三大範疇嘅共同研究優先事項:評估AI風險、設計安全嘅AI系統,以及創建監控同干預嘅機制。預計喺2026年下半年推出嘅第二版,將會加入「AI對齊」(AI alignment)作為一個新嘅、專門嘅研究優先事項。
對於一眾睇住自主AI快速部署嘅商界領袖同政策制定者,Bengio喺峰會上傳達嘅訊息毫不含糊:科技嘅發展速度遠遠快過安全基礎設施嘅建設。嗰啲有紀錄嘅資料庫刪除事故同反抗關機嘅研究,並唔係乜嘢罕見嘅極端案例——佢哋係早期嘅訊號,表明預防原則必須要應用喺AI上,而且唔係等更大嘅災難發生之後先做,而係要依家就做。
Comments
0 comments