答案已發布2 個月前Last edited 上個月19 個來源

當你的智慧音箱悄悄背叛你：無聲無息的 AudioHijack 攻擊

AudioHijack 將人耳完全無法察覺的惡意指令嵌入 Podcast 或 YouTube 影片等普通音訊，以 79% 至 96% 的成功率劫持大型音訊語言模型，用戶完全聽不到任何可疑的聲音。只需一段 30 分鐘的對抗性音訊，即可重複使用，無論用戶當下在做什麼或說什麼，攻擊都能跨越不同對話情境獨立運作。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Abstract visualization of imperceptible sound waves hijacking an AI voice assistant, with audio waveforms intersecting a smart speaker icon — How does the AudioHijack attack work, and what makes it a significant new threat to AI voice assistantsA conceptual illustration of how AudioHijack uses inaudible adversarial audio to commandeer AI voice models without human detection.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: How does the AudioHijack attack work, and what makes it a significant new threat to AI voice assistants?. Article summary: **AudioHijack** is an auditory prompt-injection attack that embeds imperceptible adversarial noise into otherwise benign audio, hijacking Large Audio-Language Models (LALMs) with 79–96% success rates [1][3][10]. It was p. Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "A digital visualization depicts an AI chip at the center, radiating connections and signals, symbolizing a cyber attack on voice assistants like AudioHijack, with a focus on techno" Reference image 2: visual subject "The image shows a software interface called Voice Chat that displays a workflow involving capturing audio from Zoom.us, analyzing it with P
openai.com

想像一下，你正在家裡收聽 Podcast。你的智慧音箱接收到音訊，不一會兒，你的 AI 助理開始發送訊息、下載檔案，或是搜尋你的敏感資料——而你，連一個字都沒有說。你什麼奇怪的聲音都沒聽到，但你的 AI 助理，剛剛被藏在人類聽覺門檻底下的聲音給劫持了。

這一切並非假設。來自浙江大學、新加坡國立大學和南洋理工大學的研究人員，在 2026 年 5 月的 IEEE 安全與隱私研討會上，展示了這項確切存在的威脅。他們發表了 AudioHijack，這是一種針對大型音訊語言模型（LALMs）的新型聽覺提示注入攻擊。

這項攻擊在多個最先進的模型上，取得了令人心驚的 79% 至 96% 成功率，同時對人類聽眾來說，這些攻擊音訊完全是隱形的。

AudioHijack 跟過去的音訊攻擊有何不同？

早期的語音助理攻擊，多半仰賴喚醒詞觸發。也就是播放一段預錄的「Hey Siri」或「OK Google」來喚醒助理，接著下達聽得見的惡意指令。AudioHijack 更危險的地方在於，它瞄準的是能夠自主執行複雜多步驟動作（例如發送郵件、存取個人資料、控制智慧家電）的生成式大型音訊語言模型，過程中完全不需要任何聽得見的觸發短語。

真正的技術躍進，在於它繞過了模型的音訊標記化過程。大型音訊語言模型會將原始音訊轉換為離散的標記，這個過程通常會破壞基於梯度的優化，因為離散化的步驟是不可微分的。AudioHijack 框架利用 基於採樣的梯度估計 來克服這道難題，透過逼近這組黑箱標記器的梯度，在非可微的管線中實現端到端的對抗性音訊生成。

攻擊實際上如何進行？

這項技術的管線包含幾個關鍵階段：

製作對抗性音訊。 攻擊者先設定一個目標指令，例如「搜尋並下載敏感檔案」。一套優化演算法會以人耳無法察覺的方式，擾動一段音訊波形，反覆測試模型的反應並持續精煉波形，直到模型能可靠地執行惡意指令，而這段音訊對人類來說，聽起來依然像是正常的背景噪音。

注意力監督。 這項攻擊會將模型內部的注意力機制，引導至對抗性音訊的段落上。這確保了隱藏的指令能主導模型的行為，即使模型同時也在處理合法的使用者語音。

情境無關的訓練。 研究人員在大量不同的對話情境下，訓練這段對抗性音訊。這些情境包含了各式各樣的背景噪音、使用者指令和互動場景。最終的成果是一段 30 分鐘的特製訊號，無論使用者在攻擊當下正在說什麼或做什麼，這段訊號都能發揮作用。

自然融合。 一種卷積融合方法，會將擾動調製成聽起來像房間自然殘響的聲音。對人耳而言，這不過是微弱的回音或環境音；但對 AI 模型來說，這卻是一組凌駕一切的指令。

為何難以防禦？

基於幾個原因，AudioHijack 帶來了極其艱鉅的防禦挑戰。

無需使用者操作。 不同於釣魚或應用程式惡意軟體，使用者不用點擊任何東西、不用安裝任何軟體，也不必授予任何權限。只需在裝有 AI 的裝置附近播放音訊內容，就足以觸發攻擊。將惡意訊號嵌入 YouTube 影片、Podcast、串流音訊廣告，甚至 VOIP 通話中，等於給了攻擊者極其廣闊的傳播途徑。

隱蔽性擊敗人類偵測。 對抗性的擾動經過精心設計，位於人類感知的門檻之下。使用者聽不到任何可疑的聲音，也就沒有任何理由去懷疑自己的助理已遭到駭客接管。

可重複使用且持續有效。 同一段對抗性音訊，每次播放都有效。不像軟體漏洞一旦被發現就會被修補，一段精心打造的音訊檔案可以重複利用，不斷攻擊同一個受害者，何況這個根本缺陷深埋在模型的基本架構裡，並非一個能透過熱修復解決的軟體錯誤。

模型無關的威脅。 AudioHijack 已在 13 種不同的最新大型音訊語言模型上成功測試，這暗示了漏洞是這類模型處理音訊方式的普遍問題，而非僅限於某個特定實作。

現有防禦的侷限與挑戰

研究人員指出，至今唯一被證明有效的防禦方式，是監控模型內部的注意力機制，以偵測並攔截惡意的音訊引導行為。然而，攻擊者可以透過微調注意力引導的強度來適應這項防禦，如此一來，雖然會小幅降低攻擊成功率，但也能降低被偵測到的機率。

這形成了一場貓捉老鼠的動態博弈。防禦方必須持續監控模型內部狀態，這種做法不僅運算開銷高昂，若要大規模部署，更可能引發隱私方面的擔憂。

更深層的警訊是，AI 助理的音訊輸入管線，所受的審查基本上遠不及文字介面。用文字進行提示注入，已是眾所皆知的威脅，但當輸入模態轉移到音訊領域時，便打開了一個更為廣闊的攻擊面，而整個產業才剛剛開始理解這個問題的嚴重性。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問