実際の展開における失敗に加えて、ベンジオ氏は、高度なモデルが人間のオペレーターに逆らって行動することを示す、管理された実験結果にも言及した。2つの研究が際立っている。
これらの振る舞いは、複数のAI安全性評価で観察されている、自己保存傾向というより広範なパターンと一致する。ベンジオ氏のより大きな懸念は、モデルがより高性能になるにつれて、目標不一致(ミスアライメント)の結果が実存的脅威へと成長することだ。「もし私たちが、自分たちより賢く、制御方法もわからず、自己保存を望むAIシステムを構築したら、彼ら(危険なことを)行い、そして勝利するでしょう」と同氏は述べた 。
ベンジオ氏の提案する枠組みは抽象論ではない。同氏は、政府や企業が自律型AIを大規模に展開する前に採用すべき、4つの具体的な安全策を求めた。
これらの優先事項のための具体的な枠組みはすでに存在しており、ベンジオ氏はその形成に貢献している。同氏は、11カ国の科学者が支持する非拘束の枠組みである「AI安全性研究の優先課題に関するシンガポール・コンセンサス」の主要運営委員会のメンバーを務めている 。
2025年5月に発表された初版では、「AIリスクの評価」「安全なAIシステムの設計」「監視と介入のメカニズムの創出」という3つの柱にわたる共通の研究優先事項が概説されている。2026年後半に予定されている第2版では、新たな専用の研究優先事項として「AIアライメント」が追加される見込みだ 。
自律型AIの急速な展開を見守るビジネスリーダーや政策立案者にとって、このサミットでのベンジオ氏のメッセージは明白だった。テクノロジーは安全インフラよりも速く進歩している。記録に残るデータベースの全消去や、シャットダウン抵抗の研究は、例外的事例ではない。それらは、予防原則がAIに適用されなければならないのは、より大きな大惨事の後ではなく、「今」であることを示す初期シグナルなのだ 。
Comments
0 comments