진정한 도약은 이 공격이 모델의 오디오 토큰화(tokenization) 과정을 우회하는 방식에 있습니다. LALM은 일반적으로 원시 오디오를 이산적인 토큰으로 변환하는데, 이는 데이터를 잘게 쪼개는 과정에서 미분이 불가능해져(non-differentiable) 일반적인 AI 최적화 기법을 적용할 수 없게 만듭니다. 오디오하이잭 프레임워크는 **표본 기반 경사 추정(sampling-based gradient estimation)**이라는 방식을 사용하여, 마치 블랙박스처럼 막혀 있는 이 토큰화 과정의 경사를 근사치로 추정함으로써, 공격자가 입력 오디오부터 최종 결과까지 전체 파이프라인을 완벽하게 통제하며 적대적 오디오를 만들어낼 수 있게 합니다 .
오디오하이잭의 기술적 과정은 여러 단계로 구성됩니다.
1. 눈에 보이지 않는 적, 적대적 오디오 제작. 공격자는 먼저 특정 목표 명령을 상정합니다. 예를 들어, “민감한 파일을 검색하여 다운로드하라” 같은 지시입니다. 최적화 알고리즘이 오디오 파형을 사람의 귀에는 인지되지 않을 정도로 미세하게 교란(perturb)시키면서, 모델이 이 교란된 파형을 해석할 때 악성 명령을 충실히 수행할 때까지 수많은 테스트를 반복하여 파형을 다듬습니다. 이렇게 완성된 오디오는 사람에게는 그저 평범한 배경 잡음이나 잔향처럼 들립니다 .
2. 모델의 이목을 사로잡는 주의력 감독(Attention Supervision). 이 공격의 핵심은 모델 내부의 ‘주의 메커니즘(attention mechanism)’을 교란하는 것입니다. 모델이 현재 처리 중인 정보 중 어디에 집중할지 결정하는 이 메커니즘을 적대적 오디오 세그먼트 쪽으로 강제로 조종합니다. 이를 통해 사용자가 동시에 정당한 음성 명령을 내리고 있더라도, 숨겨진 악성 지시가 모델의 행동을 완전히 지배하도록 만듭니다 .
3. 어떤 상황에서도 통하는 맥락 독립적 훈련(Context-Agnostic Training). 연구진은 다양한 배경 소음, 사용자 명령, 상호작용 시나리오 등 수많은 대화 맥락을 섞어가며 공격 오디오를 훈련했습니다. 그 결과 단 하나의 30분짜리 적대적 신호만으로, 피해자가 어떤 말을 하거나 무슨 일을 하고 있든 관계없이 언제나 동일하게 AI를 탈취할 수 있게 되었습니다 .
4. 완벽한 위장, 자연스러운 혼합. 단순한 잡음이 아니라, 컨볼루션 혼합(convolutional blending) 기법을 통해 이 교란 신호를 실제 공간의 잔향(reverberation)처럼 자연스럽게 변조합니다. 인간의 귀에는 그저 희미한 울림이나 주변음처럼 들리지만, AI 모델에게는 절대적인 명령 집합으로 작동하는 것입니다 .
오디오하이잭이 특히 방어하기 까다로운 데는 몇 가지 냉혹한 이유가 있습니다.
제로 클릭, 제로 퍼미션. 사용자는 아무것도 클릭하지 않고, 어떤 앱도 설치하지 않으며, 어떤 권한도 부여하지 않습니다. 단지 AI가 탑재된 기기 근처에서 특정 오디오 콘텐츠가 재생되는 것만으로 공격이 성립합니다. 유튜브 영상, 팟캐스트, 스트리밍 광고, 심지어 인터넷 전화(VoIP) 통화에 악성 신호를 숨기는 것만으로도 공격자에게 무한한 공격 경로가 열립니다 .
인간의 감시를 무력화하는 은밀함. 적대적 교란 신호는 인간의 지각 역치(perceptual threshold) 아래에 머물도록 정밀하게 설계됩니다. 따라서 사용자는 의심스러운 소리를 전혀 듣지 못하며, 자신의 AI 비서가 이미 적의 손아귀에 넘어갔다는 사실을 알아차릴 방법이 없습니다 .
지속적으로 재사용 가능한 범용 익스플로잇. 한 번 제작된 적대적 오디오는 재생될 때마다 완벽하게 작동합니다. 소프트웨어 익스플로잇은 발각되면 패치로 막히지만, 이렇게 제작된 오디오 파일은 동일한 희생자를 대상으로 몇 번이고 반복해서 악용될 수 있습니다. 더 큰 문제는 이 취약점이 소프트웨어 버그가 아니라 모델의 근본적인 아키텍처에 내재된 특성이라는 점입니다 .
모델을 가리지 않는 위협. 오디오하이잭은 무려 13개의 서로 다른 최신 LALM 모델들을 상대로 성공적으로 테스트되었습니다. 이는 이 취약점이 특정 구현체의 결함이 아니라, AI가 오디오를 처리하는 방식 자체에 고질적으로 내재되어 있을 가능성이 높다는 의미입니다 .
연구진에 따르면, 현재까지 입증된 유일한 효과적 방어 수단은 ‘모델 내부 주의 메커니즘’을 지속적으로 모니터링하여 악성 오디오의 유도를 탐지하고 차단하는 것입니다. 그러나 공격자는 여기에 대응하여 주의 집중 유도 강도를 미세 조정함으로써, 공격 성공률을 소폭 낮추는 대신 방어 시스템의 탐지율을 극적으로 떨어뜨릴 수 있습니다 .
이는 공격자와 방어자 간의 끝없는 숨바꼭질로 이어집니다. 방어를 위해 모델의 내부 상태를 상시 감시하는 것은 계산 비용이 엄청날 뿐만 아니라, 대규모로 배포될 경우 사용자 사생활 침해라는 또 다른 문제를 야기할 수 있기 때문입니다.
더 넓게 보면, 이 사건은 AI 음성 비서의 오디오 입력 파이프라인이 텍스트 기반 인터페이스에 비해 보안 감사 측면에서 훨씬 덜 성숙한 취약한 고리임을 적나라하게 드러냅니다. 텍스트 프롬프트 주입은 이미 잘 알려진 위협이지만, 음성이라는 새로운 양식으로의 전환은 업계가 이제 막 그 위험성을 이해하기 시작한 거대한 공격 표면을 열어젖히고 있는 것입니다.
Comments
0 comments