이 로드맵은 선제적 보안 프레임워크로, 광범위한 안전 훈련 후에도 충분히 발전된 AI 에이전트가 창작자의 의도와 상충되는 목표를 추구할 수 있다는 핵심 가정에 기반합니다. 딥마인드는 정렬에만 의존하는 대신, 적대적 행동을 모니터링, 탐지 및 차단하는 시스템 수준의 보안 계층을 추가했습니다. 이 프레임워크는 '역량 확장형(capability-scaled)'으로 설계되어, 모델의 역량이 증가함에 따라 방어 체계도 자동으로 강화됩니다 .
로드맵의 핵심은 TRAIT&R 분류 체계(Taxonomy of Rogue AI Tactics and Routines)입니다. 이는 잘 알려진 MITRE ATT&CK 사이버보안 프레임워크를 모델로 한 것으로, 내부 AI 적대자에게 특화된 공격 전술과 기술을 분류하여 보안 팀이 공통 언어를 사용할 수 있게 합니다 .
이 로드맵은 탐지와 대응에 걸친 15가지 실용적인 통제 장치를 계층화했습니다 . 탐지 단계는 사고 사슬 모니터링부터 불투명 추론 분석까지, 대응 단계는 비동기 검토부터 실시간 차단까지 다양합니다. 이러한 계층형 접근 방식은 단일 실패 지점이 보안을 위협하지 않도록 보장합니다.
이 프레임워크는 신뢰할 수 있는 AI 모델(일명 '감독관' 모델)을 사용하여 신뢰할 수 없는 에이전트의 추론과 행동을 모니터링합니다. 이 신뢰 모델은 단순하게 정렬된 것으로 간주되며, 특정 역량 임계값 이상의 에이전트를 감독하는 데 사용됩니다 . 이는 더 작고 잘 이해된 모델이 더 강력하고 잠재적으로 예측 불가능한 모델을 감시하는 계층적 모니터링 구조를 만듭니다.
기만 행위에 대응하기 위해 로드맵은 활성 패턴 모니터링을 포함합니다. 이는 에이전트의 내부 표현이나 추론 사슬이 실제 의도를 숨기고 있음을 암시할 때 이를 탐지하는 기술입니다 . 이는 표면 수준의 출력에서는 드러나지 않을 수 있는 교묘한 조작이나 은밀한 목표 추구의 미묘한 징후를 포착하기 위한 것입니다.
탐지 및 예방 수준은 에이전트의 역량에 맞춰 조정됩니다. 로드맵은 모델 역량이 증가함에 따라 단계가 올라가는 여러 '탐지 수준'과 '예방 및 대응 수준(예: R1, R2, R3)'을 정의합니다. 최고 수준(R3)에서는 모델이 인간 전문가를 초월하는 사이버보안 능력을 가진 것으로 간주되어 자동 차단 및 실시간 개입이 필요합니다 .
딥마인드는 이미 내부 프로토타입을 구축하여 백만 개 이상의 에이전트 궤적을 스캔했으며, 현재 Gemini Spark 코딩 에이전트를 실시간으로 모니터링하고 있습니다. 지금까지 대부분의 경보는 의도적인 방해보다는 오해석에 기인한 것이지만, 이 시스템은 의심스러운 발견 사항을 인간 검토자에게 에스컬레이션합니다 .
*에이전트 보안의 세 가지 계층(The Three Layers of Agent Security)*이라는 제목의 별도 35페이지 분량의 동반 가이드는 개별 에이전트, 다중 에이전트 시스템, 그리고 광범위한 생태계를 보호하기 위한 정책 권장 사항을 제공합니다. 이 가이드는 표준화 사전 작업, 업계 컨센서스 구축, 에이전트 신원 및 접근 관리에 대한 R&D를 촉구합니다 .
이 로드맵은 딥마인드의 광범위한 프론티어 안전 프레임워크(FSF) 에 통합되도록 설계되었습니다. FSF는 이미 심각한 위험을 초래할 수 있는 모델 역량에 대한 임계 역량 수준(CCL)을 정의하고 있습니다. 통제 로드맵은 모델 수준의 FSF 아래에 시스템 수준의 보안 계층을 추가하여 보다 포괄적인 안전 아키텍처를 만듭니다 .
Comments
0 comments