真正的技术飞跃在于,此次攻击成功绕过了模型的音频令牌化过程。大型音频语言模型会将原始音频转换成离散的令牌,这个过程通常会打断基于梯度的优化,因为离散化步骤是不可微的。而AudioHijack框架通过引入基于采样的梯度估计,在一个类似“黑箱”的令牌化器上近似计算梯度,从而成功绕过了这个不可微的管道,实现了端到端的对抗性音频生成 。
这项攻击的技术流程包含几个清晰的阶段:
1. 精心制作对抗性音频。 攻击者首先设定一个目标指令,例如,“搜索并下载敏感文件”。然后,通过一种优化算法,以一种人耳无法察觉的方式,反复扰动一段音频波形。这个算法会不断测试模型的响应,并微调波形参数,直到模型能够可靠地执行恶意命令,而这段音频在人类听来,依然只是普通的背景音 。
3. 上下文无关的训练。 研究人员在大量不同的对话上下文中训练这段对抗性音频——包括各种背景噪音、用户指令和交互场景。这样做的结果是,一段单一的、时长为30分钟的合成信号,无论用户当时在说什么或做什么,攻击都能奏效 。
AudioHijack之所以对现有防御体系构成独特且严峻的挑战,原因如下:
无需用户交互。 与网络钓鱼或基于应用程序的恶意软件不同,用户无需点击任何链接、安装任何软件或授予任何权限。只要在搭载AI助手的设备附近播放含有恶意信号的音频内容,就足以引发攻击。将恶意信号嵌入YouTube视频、播客、流媒体音频广告,甚至VoIP通话中,为攻击者提供了一个极为广阔的攻击面 。
可复用且持久。 同一段对抗性音频可以屡试不爽。与一经发现就会被修复的软件漏洞不同,一段制作好的音频文件可以反复攻击同一受害者。更根本的是,这个漏洞深植于模型的基础架构之中,并非一个可通过热补丁修复的简单软件缺陷 。
研究人员指出,目前唯一被证实有效的防御手段,是监控模型的内部注意力机制,以便在检测到恶意音频引导时进行拦截。然而,攻击者可以通过微调注意力引导的强度来适应这种防御,从而在仅仅小幅降低攻击成功率的同时,大幅降低被检测到的概率 。
这便形成了一场“猫鼠游戏”——防御方必须持续监控模型的内部状态,而这种方法不仅计算成本高昂,如果大规模部署,还可能引发隐私泄露的担忧。
更深远的警示在于,AI助手的音频输入管道所受的安全审查从根本上就远不如文本界面严格。基于文本的提示注入已是备受关注的威胁,而向音频模式的转变,则打开了一个更宽泛、整个行业才刚刚开始意识到的攻击敞口。
Comments
0 comments