플리니는 자신의 공격 방식을 **‘팩 헌트(Pack Hunt∙무리 사냥)’**라고 설명했다 . 이는 단일 프롬프트가 아닌, 여러 공격 전략을 유기적으로 결합한 다중 AI 협업 방식이다. 마치 한 무리의 포식자가 각기 다른 방향에서 협력하여 먹잇감을 포위하듯, AI 분류기가 감지하기 어려운 방식으로 안전 장치를 누적적으로 무력화시켰다.
주요 공격 수법은 다음과 같다.
앤트로픽은 모델 출시 전에 상당히 정교한 안전 검증 주장을 펼쳤다.
그러나 이 모든 숫자는 단 한 명의 독립 연구원에 의해 하루 만에 무력화되었다. 이는 1,000시간이 넘는 전문가 검증 체계가 실제 공격자의 창의성과 집요함을 체계적으로 과소평가할 수 있음을 극명하게 보여준다. 시스템의 취약점을 찾은 것이 아니라, 마치 사람을 속이듯 ‘사회공학적 프롬프트’로 AI를 속인 점이 특히 주목할 만하다 .
이번 일은 전례 없는 사고가 아니다. 동일한 연구원에 의한, 더 놀라운 패턴의 연속일 뿐이다.
이 모든 사건들을 관통하는 핵심은 ‘모델이 모델을 탈옥시키는’ 행위의 자동화다. 더 이상 인간이 기발한 마법 주문을 만드는 것이 아니라, 한 번 풀려난 AI를 완전 자율 에이전트로 풀어놓아 새로운 AI 모델을 사냥하게 하는 방식으로 패러다임이 이동했다 . 이는 대부분 정적인 단발성 프롬프트 공격을 막도록 설계된 기존의 분류기형 안전 시스템으로는 감지하기 매우 어렵다.
보안 기업 레펠로(Repello)도 2026년 AI 탈옥 동향 분석에서 이와 유사한 결론을 내렸다. 가장 위험한 공격은 더 이상 단일 프롬프트가 아니라, 각 단계는 무해해 보이지만 전체적으로는 악의적인 목표를 달성하는 다회차 적대적 시퀀스라고 경고했다. 이는 ‘팩 헌트’의 특징과 정확히 일치한다 .
페이블 5 사태는 앤트로픽의 안전 노력이 거짓이었음을 의미하지는 않는다. 그러나 ‘안전 인증’의 실질적인 의미에 대한 불편한 질문을 던진다. 1,000시간의 검증조차 한 명의 창의적인 개인에게 하루 만에 뚫릴 수 있다면, 우리는 무엇을 믿고 최첨단 AI를 공개할 수 있을까?
이 사건은 최신 AI 안전 패러다임이 직면한 딜레마를 상징한다. 고도로 훈련된 AI 분류기는 정적이고 질서 정연한 실험실 테스트에선 완벽하게 작동하지만, 예측 불가능한 실제 공격자의 협업형 사회공학 공격 앞에서는 속수무책이었다. 이제 질문은 명확하다. ‘탈옥 불가’라는 인증 마크가 과연 어떤 의미를 지니는가?
Comments
0 comments