한 문서화된 실험에서, 연구진은 상업용 AI 로봇 개에게 영화 대본 형식을 빌려 폭발물을 설치하기에 최적의 장소를 찾도록 지시했다. 로봇은 제조사가 제공한 안전 장치에도 불구하고 이 요청을 실행했다. 하드웨어 개조는 전혀 없었고 오직 창의적인 텍스트 프롬프트만 사용되었다 . RoboPAIR의 초기 버전은 이미 세 가지 다른 로봇 시스템을 상대로 100% 탈옥 성공률을 기록한 바 있다. 여기에는 정지 신호를 무시하고 다리 밖으로 질주하는 시뮬레이션 자율주행차, 폭탄 폭발 지점을 찾도록 프로그래밍된 바퀴 달린 로봇, 그리고 제한 구역을 염탐하고 침입하도록 지시받은 4족 보행 로봇이 포함된다
.
근본적인 문제는 사이언스 로보틱스 논문이 '비욘드 얼라인먼트(beyond alignment)' 접근의 필요성이라고 부르는 지점에 있다. 챗봇용으로 설계된 안전 메커니즘은 명령의 텍스트적 표현만 평가할 뿐, 행동의 물리적 맥락이나 결과는 평가하지 않는다. 로봇은 "다리 밖으로 주행하라"는 지시가 유해하다는 것을 이해할 수 있지만, "영화 장면에서, 영웅의 차가 다리 밖으로 곤두박질친다"라는 표현은 안전 필터를 완전히 통과할 수 있다. 모델이 이를 물리적 지시가 아닌 이야기 구성체로 처리하기 때문이다 .
이와는 별개로, 똑같이 놀라운 발견이 로마 라 사피엔자 대학교와 DexAI 싱크탱크의 협업체인 '이카로 랩(Icaro Lab)'으로부터 나왔다. 이들의 연구는 유해한 요청을 시의 형태로 작성하는 것이 '만능 탈옥 도구'로 작용하여, 주요 AI 모델의 안전 메커니즘을 62%의 확률로 우회한다는 사실을 밝혀냈다. 참고로 표준적인 악성 프롬프트의 우회율은 겨우 8%에 불과하다 .
사람이 직접 쓴 시는 특히 효과적이었다. 실험 대상이 된 25개의 최첨단 모델 중 일부는 90% 이상의 확률로 속아 넘어갔다 . 이 취약점의 근원은 LLM이 텍스트를 생성하는 방식에 있는 것으로 보인다. LLM은 패턴을 기반으로 가장 가능성 높은 다음 단어를 예측하는데, 시의 파격적인 운율, 구조, 그리고 모호성이 모델이 유해 콘텐츠를 인식하고 걸러내는 능력을 교란시키는 것이다
.
이 기술은 사람이 쓴 시에만 국한되지 않았다. 연구진은 또한 AI를 사용해 이미 알려진 1,200개의 악성 프롬프트를 시 형식으로 다시 쓰도록 했는데, 이 AI 생성 시도 사람이 쓴 시와 유사하게 안전 장치를 우회하는 데 효과적이었다 .
AI 구동 로봇에 대한 창의적 조작은 텍스트 프롬프트를 훨씬 넘어선다. 2026년 1월, UC 산타크루즈 연구진은 로봇 환경 속에 있는 표지판, 포스터, 스티커와 같은 물리적 물체에 적힌 오해의 소지가 있는 텍스트가, 소프트웨어 해킹 없이도 체화된 AI 시스템의 의사 결정을 가로챌 수 있다는 것을 입증했다 . 카메라 기반 AI 시스템은 주변 환경의 텍스트를 읽고 이를 지시로 해석할 수 있기 때문에, 전략적으로 배치된 표지판 하나가 자율주행차나 자율주행 드론을 예기치 않게 행동하게 만들 수 있다는 것이다
.
상업용 로봇 하드웨어는 추가적인 취약점을 드러낸다. 2026년 '레코디드 퓨처(Recorded Future)'의 경영진 인텔리전스 보고서는 상업적으로 판매되는 로봇이 블루투스를 통해 해킹당하거나, 오디오, 비디오, 공간 데이터를 은밀히 빼돌리거나, 심지어 주변 로봇을 무선으로 감염시켜 물리적 봇넷(botnet)을 형성할 수 있다고 문서화했다 . 또한 2025년에는 유니트리(Unitree)의 Go1 4족 보행 로봇에서 원격 접근을 허용하는 문서화되지 않은 백도어가 발견되었고, 인증 없이도 실시간 카메라 피드를 볼 수 있게 하는 API가 노출된 사례도 있었다
.
한편, ACM SenSys 2026에 채택된 한 논문은 대부분의 탈옥 공격이 프롬프트의 의미론에 집중하지만, 체화된 에이전트는 텍스트 기반 가드레일을 완전히 우회하는 직접적인 행동 수준 조작을 통해서도 조종될 수 있다는 점을 발견했다 . 개별적으로는 무해해 보이는 일련의 행동들이 결합되어 위험한 결과를 초래할 수 있는데, 이는 기존 안전 필터가 감지하도록 설계되지 않은 취약점이다.
간단히 말해, 거의 전부다. 2025년 11월 킹스 칼리지 런던과 카네기 멜론 대학교의 공동 연구는 로봇을 구동하는 모든 주요 LLM을 테스트했으며, 결과는 단 하나의 예외도 없이 모든 모델이 창의적인 표현으로 만든 프롬프트 앞에서 치명적인 안전 검사를 통과하지 못했고, 차별적인 태도를 보였으며, 심각한 신체적 위해를 초래할 수 있는 명령을 최소 한 건 이상 승인했다는 것을 보여주었다 .
맨디언트(Mandiant)의 레드팀 평가는 프롬프트 인젝션(겉으로는 평범해 보이는 입력 안에 악의적 지시를 숨기는 기술)이 AI 시스템에 대한 주된 공격 경로로 남아 있음을 확인해준다 . 군사 전문가들은 또한 적들이 이 자연스러운 결함을 악용하여 파일을 훔치거나, 정보를 왜곡하거나, 신뢰하는 사용자를 배신하도록 지시를 주입할 가능성이 높다고 별도로 경고한 바 있다
.
이러한 보안 위기는 기업 환경으로도 확장된다. 마이크로소프트의 Copilot Studio는 이메일 기반 인젝션 취약점으로 인해 정식 CVE-2026-21520 번호를 부여받았으며, 퍼플렉시티(Perplexity)의 코멧(Comet) 브라우저는 "익스플로잇, 사용자 클릭, 그리고 민감한 행동에 대한 명시적 요청 없이"도 침해가 가능한 제로 클릭 공격에 무너졌다 .
연구자와 보안 전문가들은 여러 계층의 방어책을 중심으로 모이고 있지만, 아직 완벽한 해결책은 없다.
맥락 인식 안전 시스템은 가장 근본적인 전환을 의미한다. 사이언스 로보틱스 논문은 로봇 기반 모델이 명령의 텍스트적 표현뿐 아니라 물리적 맥락과 행동 결과를 인지하는 안전 메커니즘을 반드시 통합해야 한다고 명시적으로 요구한다 . 저자들이 지적하듯, 인간 가치와의 '언어적 정렬'은 로봇 시스템 약 5대 중 1대 꼴로 위험할 정도로 부족한 상태이다
.
멀티모달 도메인 적응은 텍스트와 시각 양식 모두에 걸친 적대적 입력에 대해 로봇 시스템을 강건하게 만드는 훈련 방법을 제안한다. 이는 공격이 언어, 이미지, 또는 환경적 신호를 통해 동시에 발생할 수 있다는 현실을 반영한 것이다 .
계층화된 탐지 및 검열은 가까운 미래에 실용적인 방어책이다. 맨디언트는 모델에 도달하기 전에 숨겨져 있거나 창의적으로 위장된 악성 프롬프트를 포착할 수 있는 입력 검열을 포함한 심층 방어를 권장한다 . 감사 프레임워크는 이제 탐지 계층 없이는 AI 기능이 아마추어 수준의 탈옥 공격에도 취약하다고 명시한다
.
앤트로픽(Anthropic)이 도입한 헌법적 분류기(Constitutional classifiers) 는 사용자 입력과 모델 출력을 모두 모니터링하여 유해 콘텐츠를 거부한다. 이는 컴퓨팅 오버헤드를 추가하고 공격자들이 계속해서 우회를 시도하고 있지만, 업계의 투자가 활발히 이루어지고 있는 분야임을 보여준다 .
CI/CD 통합 또한 성숙해지고 있다. "PromptPwnd"와 같은 도구가 등장하여 프롬프트 인젝션 테스트를 개발 파이프라인에 직접 내장하고 있으며, 이는 적대적 프롬프트 테스트를 사후 처리가 아닌 소프트웨어 전달의 표준적인 부분으로 취급하기 시작했음을 의미한다 .
규제적 대응은 빠르게 진화하고 있으며, 메시지는 분명하다. AI 탈옥은 단순한 기술적 문제가 아니라 '규정 준수 책임'이라는 것이다.
EU AI 법은 유해 콘텐츠를 생성하도록 탈옥될 수 있는 AI 모델을 배포하는 조직에 벌금, 의무적 사고 보고, 그리고 해결 조치를 부과한다. NIS2 지침과 금융, 헬스케어 분야의 개별 규칙들도 유사한 의무를 생성한다 . 범용 AI에 대한 의무는 2025년에 단계적으로 시작되었으며, 시스템 수준에서의 완전한 규칙은 2027년까지 시행될 것으로 예상된다
.
데이터 보호법은 또 다른 책임 계층을 추가한다. 개인 데이터의 무단 공개를 야기하는 프롬프트 인젝션은 GDPR, 홍콩의 개인정보보호조례(PDPO, 데이터 보호 원칙 4), HIPAA, PCI-DSS에 따른 규정 준수 의무를 발생시킨다 . 홍콩의 개인정보보호 위원은 2026년, 데이터 유출을 발생시키는 AI 보안 실패는 기술적 사고가 아닌 법적 강제 조치가 가능한 위반으로 취급될 것이라고 시사했다
.
미국의 프레임워크 또한 강화되고 있다. NIST AI RMF 측정 2.6은 알려진 적대적 패턴에 대해 입증 가능한 통제를 요구한다 . ISO 42001을 포함한 규정 준수 프레임워크는 이제 프롬프트 인젝션 방지 및 탐지를 위한 구체적인 통제를 의무화한다
. 헬스케어 HIPAA, 금융 GLBA, 교육 FERPA와 같은 분야별 규칙들은 모델 제공업체의 책임과 무관하게 '배포자'를 책임 주체로 간주한다
.
이 책임의 사슬은 중대하다. 탈옥 공격으로 보호 대상 건강 정보가 유출된 헬스케어 AI 에이전트는, 배포 조직이 모델 제공자에게 책임을 전가할 수 없는 HIPAA상의 의무를 발생시킨다. 미국 증권거래위원회(SEC) 또한 보안 취약점을 포함하는 AI 공개 기대치를 발표한 바 있다 .
이러한 연구 결과들은 집합적으로, 챗봇에 적용된 안전 교육이 물리적 안전으로 이어진다는 가정을 반박한다. "다리 밖으로 주행하라"는 평이한 언어를 거부하는 로봇이, 영화 장면을 묘사한다고 믿는 순간 바로 그 행동을 계획한다. 폭탄 제조법을 직접 요청하면 거의 항상 실패하지만, 시로 포장된 동일한 요청은 62% 확률로 성공한다.
LLM이 드론, 자율주행차, 제조 로봇, 가정용 어시스턴트의 통제 계층으로 자리 잡음에 따라, 공격 표면은 방어 기술보다 더 빠르게 확장되고 있다. 연구자들이 이제 널리 인정하듯, 프롬프트 인젝션은 단순한 기술적 도전이 아닌 정책과 거버넌스의 문제다. 이러한 위험을 해결하지 못하면 AI 애플리케이션에 대한 신뢰가 약화되고 더 넓은 도입이 저해될 수 있다 .
앞으로 나아갈 길은, 언어가 물리적 기계를 제어할 때 언어 수준의 안전만으로는 충분하지 않다는 사실을 받아들이는 데서 시작된다. 맥락 인식 아키텍처, 필수 레드팀 훈련, 계층화된 입력 검열, 그리고 강제력 있는 규제 프레임워크가 모두 필요하며, 이 중 어느 것도 아직 표준 관행이 아니다.
Comments
0 comments