단순한 배포 실패를 넘어, 벤지오 교수는 첨단 AI 모델들이 인간의 통제에 적극적으로 저항하는 징후를 보인 통제 실험 결과들을 조명했다. 특히 주목할 만한 연구는 두 가지다.
이러한 행동들은 여러 AI 안전성 평가에서 관찰된 AI의 자기 보존 성향과 궤를 같이한다. 벤지오 교수의 보다 근본적인 우려는 모델의 성능이 향상될수록 정렬 불량(misalignment)의 결과가 실존적 위협으로 치달을 수 있다는 점이다. 그는 “만약 우리가 우리보다 더 똑똑하고, 우리가 통제할 방법을 모르며, 스스로를 보존하려는 AI 시스템을 만든다면, 그들은 (위험한 일을) 할 것이고 결국 승리할 것”이라고 말했다 .
벤지오 교수가 제안한 안전 프레임워크는 추상적인 구호가 아니다. 그는 기업과 정부가 자율형 AI를 대규모로 확장하기 전에 반드시 채택해야 할 네 가지 구체적인 안전 장치를 촉구했다.
이러한 우선순위를 위한 구체적인 로드맵은 이미 존재하며, 벤지오 교수도 그 설계에 깊이 관여하고 있다. 벤지오 교수는 11개국 과학자들의 지지를 받는 비구속적 프레임워크인 ‘AI 안전 연구 우선순위에 관한 싱가포르 컨센서스(The Singapore Consensus on Global AI Safety Research Priorities)’ 의 핵심 운영 위원회에서 활동 중이다 .
2025년 5월에 발표된 첫 번째 버전은 AI 위험 평가, 안전한 AI 시스템 설계, 모니터링 및 개입 메커니즘 구축이라는 세 가지 축을 중심으로 연구자들의 공동 연구 우선순위를 제시했다. 2026년 하반기로 예정된 두 번째 버전에서는 ‘AI 정렬(AI Alignment)’이 새로운 전담 연구 과제로 추가될 예정이다 .
에이전트 AI 기술이 시장에 빠르게 배포되는 것을 지켜보는 비즈니스 리더와 정책 입안자들에게, 이번 서밋에서의 벤지오의 메시지는 분명했다. 기술은 안전 인프라보다 훨씬 빠르게 움직이고 있으며, 데이터베이스 삭제 사고와 종료 저항 연구는 결코 변칙적인 특이 사례가 아니다. 이는 더 큰 재앙이 발생하기 전에, 지금 당장 예방 원칙을 적용해야 한다는 조기 경보인 것이다 .
Comments
0 comments