真正嘅技術突破,在於佢點樣繞過模型嘅音頻令牌化過程。LALM會將原始音頻轉換成離散嘅令牌,呢一步一般會「斬斷」梯度優化嘅路,令攻擊難以生效。AudioHijack嘅框架就用咗一種基於採樣嘅梯度估計方法,喺黑盒令牌化器入面模擬返個梯度出嚟,咁就可以繞過呢個非可微管道,做到端對端嘅對抗音頻生成。
成個技術流程分咗幾個步驟:
製作對抗音頻。 攻擊者會先設定一個目標指令,例如「幫我搜尋同下載啲敏感檔案」。跟住,一個優化演算法會喺人耳察覺唔到嘅範圍內,不斷微調一段音頻嘅波形,一路測試個模型嘅反應,直到段音頻可以穩定地令個AI執行惡意指令,同時聽落仲要似普通背景雜音為止。
場景通用化訓練。 研究人員會喺大量唔同嘅對話場景入面訓練段對抗音頻,例如唔同背景噪音、唔同用戶指令等等。最終整出嚟嘅,會係一個大約30分鐘嘅「萬能Key」,無論用戶當時講緊咩、做緊咩,段攻擊音頻都可以照樣生效。
AudioHijack之所以令安全專家頭痕,有以下幾個原因:
完全唔使用戶互動。 唔似得釣魚電郵或者App惡意軟件,用戶唔需要撳任何Link、安裝任何嘢,甚至唔使授權任何權限。只要附近有個裝咗AI嘅裝置,播一播有料到嘅音頻就已經中招。黑客可以將惡意訊號嵌入YouTube片、Podcast、串流廣告,甚至VOIP網絡電話入面——散播嘅門路多到嚇死人。
可重用同持久攻擊。 同一段對抗音頻,每次播都一樣Work。唔似得軟件漏洞,一被發現就可以出Patch修復,一個整好咗嘅音頻檔案可以反覆攻擊同一個受害者。而且呢個漏洞係喺模型嘅底層架構入面,唔係一個可以快速用更新檔搞掂嘅軟件Bug。
研究人員指出,暫時唯一有啲效用嘅防禦方法,係監察模型內部嘅注意力機制,嘗試攔截呢啲惡意音頻嘅引導行為。但係,攻擊者一樣可以反制,只要微調一下注意力引導嘅強度,防守方嘅偵測率就會跌,而攻擊成功率只係跌些少咁大把。
呢個就形成咗一個貓捉老鼠嘅局面:防守方要無時無刻監察住模型嘅內部狀態,但呢個做法嘅運算成本好高,而且如果大規模部署,仲有可能侵犯私隱。
更大嘅啟示係,AI助手嘅音頻輸入管道,一路以嚟受嘅安全審查遠少過文字介面。文字形式嘅提示注入早就畀人研究到爛,但當介面轉移到音頻模態,攻擊面其實更加廣闊,而業界先啱啱開始理解呢個威脅有幾大。
Comments
0 comments