真正的技術躍進,在於它繞過了模型的音訊標記化過程。大型音訊語言模型會將原始音訊轉換為離散的標記,這個過程通常會破壞基於梯度的優化,因為離散化的步驟是不可微分的。AudioHijack 框架利用 基於採樣的梯度估計 來克服這道難題,透過逼近這組黑箱標記器的梯度,在非可微的管線中實現端到端的對抗性音訊生成 。
這項技術的管線包含幾個關鍵階段:
製作對抗性音訊。 攻擊者先設定一個目標指令,例如「搜尋並下載敏感檔案」。一套優化演算法會以人耳無法察覺的方式,擾動一段音訊波形,反覆測試模型的反應並持續精煉波形,直到模型能可靠地執行惡意指令,而這段音訊對人類來說,聽起來依然像是正常的背景噪音 。
情境無關的訓練。 研究人員在大量不同的對話情境下,訓練這段對抗性音訊。這些情境包含了各式各樣的背景噪音、使用者指令和互動場景。最終的成果是一段 30 分鐘的特製訊號,無論使用者在攻擊當下正在說什麼或做什麼,這段訊號都能發揮作用 。
基於幾個原因,AudioHijack 帶來了極其艱鉅的防禦挑戰。
無需使用者操作。 不同於釣魚或應用程式惡意軟體,使用者不用點擊任何東西、不用安裝任何軟體,也不必授予任何權限。只需在裝有 AI 的裝置附近播放音訊內容,就足以觸發攻擊。將惡意訊號嵌入 YouTube 影片、Podcast、串流音訊廣告,甚至 VOIP 通話中,等於給了攻擊者極其廣闊的傳播途徑 。
可重複使用且持續有效。 同一段對抗性音訊,每次播放都有效。不像軟體漏洞一旦被發現就會被修補,一段精心打造的音訊檔案可以重複利用,不斷攻擊同一個受害者,何況這個根本缺陷深埋在模型的基本架構裡,並非一個能透過熱修復解決的軟體錯誤 。
研究人員指出,至今唯一被證明有效的防禦方式,是監控模型內部的注意力機制,以偵測並攔截惡意的音訊引導行為。然而,攻擊者可以透過微調注意力引導的強度來適應這項防禦,如此一來,雖然會小幅降低攻擊成功率,但也能降低被偵測到的機率 。
這形成了一場貓捉老鼠的動態博弈。防禦方必須持續監控模型內部狀態,這種做法不僅運算開銷高昂,若要大規模部署,更可能引發隱私方面的擔憂。
更深層的警訊是,AI 助理的音訊輸入管線,所受的審查基本上遠不及文字介面。用文字進行提示注入,已是眾所皆知的威脅,但當輸入模態轉移到音訊領域時,便打開了一個更為廣闊的攻擊面,而整個產業才剛剛開始理解這個問題的嚴重性。
Comments
0 comments