Ранние атаки на голосовых помощников обычно использовали активацию по ключевой фразе — воспроизводили запись голоса с командой «Привет, Siri» или «Окей, Google», чтобы разбудить ассистента, а затем диктовали слышимые вредоносные команды. AudioHijack гораздо опаснее, поскольку она нацелена на генеративные LALM, способные самостоятельно выполнять сложные многошаговые действия — отправлять электронные письма, получать доступ к личным данным, управлять устройствами умного дома — без какой-либо слышимой фразы-триггера .
Настоящий прорыв заключается в том, как атака обходит этап токенизации звука в модели. LALM преобразуют необработанный звук в дискретные токены — процесс, который обычно разрушает оптимизацию на основе градиента, поскольку шаг дискретизации не является дифференцируемым. Фреймворк AudioHijack преодолевает это с помощью оценки градиента на основе выборки, которая аппроксимирует градиент через «черный ящик» токенизатора, позволяя сквозную генерацию враждебного звука, несмотря на недифференцируемый конвейер .
Технический конвейер состоит из нескольких этапов:
Создание враждебного звука. Злоумышленник определяет целевую инструкцию — например, «найди и скачай конфиденциальные файлы». Алгоритм оптимизации незаметно искажает звуковую волну, многократно проверяя реакцию модели и уточняя форму сигнала до тех пор, пока модель не начнет стабильно выполнять вредоносную команду, а звук для человека по-прежнему будет звучать как обычный фоновый шум .
Контроль внимания. Атака направляет внутренние механизмы внимания модели на враждебный аудиосегмент. Это гарантирует, что скрытая инструкция будет доминировать в поведении модели, даже если одновременно обрабатывается и легитимная речь пользователя .
Контекстно-независимое обучение. Исследователи тренируют враждебный звук в самых разных разговорных контекстах — с различными фоновыми шумами, командами пользователя и сценариями взаимодействия. В результате создаётся 30-минутный сигнал, который работает независимо от того, что говорит или делает пользователь в момент атаки. .
Естественное смешивание. Метод сверточного смешивания модулирует искажения в то, что звучит как естественная реверберация комнаты. Для человеческого уха это просто слабое эхо или окружающий тон; для ИИ-модели — набор подавляющих инструкций .
AudioHijack представляет собой уникально сложную задачу для защиты по нескольким причинам.
Не требуется взаимодействия с пользователем. В отличие от фишинга или вредоносного ПО, пользователю не нужно ни на что нажимать, ничего устанавливать или предоставлять разрешения. Достаточно просто воспроизвести аудиоконтент рядом с устройством. Встроив вредоносный сигнал в видео на YouTube, подкаст, потоковую аудиорекламу или даже VoIP-звонок, злоумышленники получают огромную поверхность для атаки .
Скрытность, невидимая для человека. Враждебное искажение аккуратно сформировано так, чтобы находиться ниже порога восприятия. Пользователи не слышат ничего подозрительного и не имеют оснований подозревать, что их ассистент был захвачен .
Многоразовость и постоянство. Один и тот же враждебный звук работает при каждом воспроизведении. В отличие от программных эксплойтов, которые исправляются после обнаружения, аудиофайл можно использовать для эксплуатации жертвы многократно. Более того, уязвимость кроется в фундаментальной архитектуре модели, а не в программной ошибке, которую можно исправить патчем .
Угроза, не зависящая от модели. AudioHijack успешно протестировали на 13 различных современных LALM, что указывает на эндемичность уязвимости для способа обработки звука этими моделями, а не на её привязанность к конкретной реализации .
Исследователи отмечают, что единственной эффективной защитой на данный момент является мониторинг внутренних механизмов внимания модели для обнаружения и перехвата вредоносного аудиоруководства. Однако злоумышленники могут адаптироваться, ослабляя силу управления вниманием, что снижает вероятность обнаружения, лишь незначительно уменьшая успешность атаки .
Это создает динамику «кошки-мышки», при которой защитники вынуждены постоянно отслеживать внутренние состояния модели — подход, требующий больших вычислительных затрат и потенциально нарушающий приватность при масштабном развертывании.
Более широкий вывод заключается в том, что входной аудиоконвейер для ИИ-ассистентов подвергается гораздо меньшему контролю, чем текстовые интерфейсы. В то время как инъекции подсказок через текст — уже хорошо изученная угроза, переход к голосовым интерфейсам открывает гораздо более широкую поверхность для атак, которую индустрия только начинает осознавать.
Comments
0 comments