최근 문서화된 몇 가지 기술은 탈옥 공격이 얼마나 쉬워졌는지 여실히 보여준다.
양말 인형극(Sockpuppeting) 은 거짓된 ‘수락’ 응답을 AI 어시스턴트의 사전 작성 응답에 주입하여, 모델의 자기 일관성 경향을 악용하는 기법이다. 최적화 과정, 모델 가중치, 특수 도구가 전혀 필요하지 않다. 오직 어시스턴트 사전 응답 입력을 지원하는 API 접근만 있으면 된다. 2026년 4월 테스트에서 사전 응답 입력을 허용한 모든 모델이 적어도 부분적으로 취약했으며, 여기에는 GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash가 포함되었다 .
논문 기반 공격은 놀랍도록 위험한 메타 취약점을 드러냈다. 2026년 한 연구는 공개된 LLM 안전 논문의 내용을 프롬프트로 사용했을 때, 클로드 3.5 소네트(Claude 3.5 Sonnet)와 같은 폐쇄형 모델을 포함하여 잘 정렬된 모델에서 97~98%의 공격 성공률을 달성했다고 밝혔다 .
안전 조종 증폭(Safety Steering Amplification) 은 안전성을 높이기 위한 기술이 역효과를 낼 수 있음을 보여준다. 정상적인 질문에 대한 ‘과도한 거부’를 줄이기 위해 추론 시점에 활성화 방향을 조종하는 기법이 라마 3.1 8B, 젬마 2 2B와 같은 모델에서 탈옥 취약성을 의도치 않게 증폭시키는 것으로 밝혀졌다 .
추론 기반 안전 장치 전복은 가장 우려되는 새로운 공격 벡터 중 하나다. 2026년 3월 연구에 따르면, 입력 프롬프트에 몇 개의 템플릿 토큰을 추가하는 것만으로 추론 기반 안전 장치를 탈취할 수 있다. 이러한 안전 장치가 손상되면, 오히려 안전 장치가 없는 모델보다 더 유해한 결과를 생성할 수 있다 .
EU AI 법의 범용 AI(General-Purpose AI, GPAI) 규정은 2025년 8월부터 발효되었다 . 10²⁵ 부동소수점 연산(FLOPs) 이상으로 학습된 모든 모델(라마 4.2 울트라를 포함한 모든 주요 상용 모델이 이 임계값을 초과함)은 시스템 리스크(Systemic Risk)를 제기하는 것으로 분류된다
.
이것이 기업에 미치는 즉각적인 영향은 다음과 같다:
오픈소스 예외 조항은 존재하지만 분명한 한계가 있다. 수익화 없이 무료 오픈소스 라이선스로 출시된 모델은 대체로 가장 엄격한 의무 밖에 있지만 , 모델이 시스템 리스크를 제기할 경우 이 면제는 즉시 사라진다
. EU의 2026년 5월 법안 개정안은 이 경계를 재확인했다
. 메타의 라마 커뮤니티 라이선스는 이미 오픈소스 예외 조항을 충족하지 못하는 것으로 지적된 바 있다
.
이제 법 집행은 이론이 아닌 현실이다. 2026년 초, EU는 메타를 포함한 주요 플랫폼을 대상으로 전례 없는 수준의 학습 데이터셋 및 안전 장치 투명성을 요구하는 고강도 시스템 리스크 조사에 착수했다 .
취약성에 대한 증거는 더 강력한 안전 소급 적용(retrofitting)에 대한 시장의 압력을 키우고 있다. 2025년 한 연구는 단 2,000개의 안전 샘플로 학습하는 것만으로도(비용은 8B 모델 기준 약 3달러, 72B 모델 기준 약 20달러) 공격 성공률을 10~30%까지 낮출 수 있음을 입증했다. 가장 성공적인 공격 기법조차 안전 강화 후에는 성공률이 약 5%로 감소했다 .
경제적 측면에서 볼 때 저비용 안전 소급 적용이 충분히 가능함을 시사하지만, 이는 아직 오픈 웨이트 생태계 전반의 표준 관행이 되지 못했다. 규제 압박이 거세지고 공격 환경이 날카로워짐에 따라, 이러한 모델을 실제 서비스에 배포하는 기업들은 20달러짜리 보험 정책을 외면하는 것이 점점 더 어려워질 것이다.
Comments
0 comments