これまでの音声アシスタントへの攻撃は、主に「ウェイクワード」の悪用が中心でした。録音した「Hey Siri」や「OK Google」の音声を再生してアシスタントを起動し、その後に聞こえる形で悪意あるコマンドを流し込む、というものです。
しかしAudioHijackが標的とするのは、自律的に複雑な多段階のアクション(メール送信、個人データへのアクセス、スマートホーム機器の制御など)を実行できる**生成AI型の音声モデル(LALM)**です。しかも、起動のための聞こえる合図さえ必要としません 。
最大の技術的ブレークスルーは、モデル内部の「音声のトークン化」処理を突破した点にあります。LALMは生の音声を離散的なトークン(デジタル情報の最小単位)に変換しますが、この過程は通常、最適化のための「勾配」が計算できず、攻撃用の音声を自動生成するアルゴリズムが使えない、いわばブラックボックスでした。
AudioHijackは、「サンプリングベース勾配推定」と呼ばれる手法を用いて、このブラックボックスの中での勾配を近似的に計算することに成功しました。これにより、本来は通り抜けられないトークン化の壁を越えて、モデル全体を端から端まで操作する「敵対的音声」を作り出すことが可能になったのです 。
技術的なパイプラインは、以下のように複数の段階で構成されています。
悪意ある「敵対的音声」の生成。 攻撃者はまず、「機密ファイルを検索してダウンロードせよ」といった標的の命令を設定します。最適化アルゴリズムが、音声の波形を人間には知覚できないレベルの微小な変化で繰り返し調整します。モデルの反応を確認しながら、悪意ある命令を忠実に実行する一方で、人間の耳にはただの背景雑音や残響のようにしか聞こえない音声が完成するまで、この微調整は続けられます 。
注意機構の誘導。 この攻撃は、AIモデル内部の「注意機構(Attention)」を、敵対的音声の部分に強制的に向けさせます。これにより、たとえ正当なユーザーの音声が同時に処理されていたとしても、隠された命令がモデルの振る舞いを支配することを保証します 。
文脈を無効化する学習。 研究チームは、さまざまな会話の文脈(異なる背景雑音、ユーザーのコマンド、対話シナリオ)でこの敵対的音声を学習させました。その結果、わずか30分の細工されたシグナル一つで、ユーザーがその時何を話しているかに関係なく、あらゆる場面で攻撃が成立する「文脈非依存」の状態を実現しました 。
自然な音への溶け込み。 「畳み込みブレンディング(Convolutional Blending)」という手法で、攻撃用の音声波形を部屋の自然な残響のように変調させます。人間の耳には、ただのかすかなエコーや環境音にしか聞こえませんが、AIモデルにとっては、あらゆる指示を上書きする絶対的な命令となります 。
AudioHijackは、いくつもの理由から、セキュリティ対策が非常に困難な脅威です。
ユーザーの操作が一切不要。 フィッシング詐欺やアプリのマルウェアと違い、ユーザーは何もクリックせず、何もインストールせず、何の許可も与えません。AI搭載デバイスの近くで音声コンテンツが再生されるだけで、攻撃が成立します。悪意あるシグナルは、YouTube動画、ポッドキャスト、ストリーミング広告、さらにはIP電話にさえ埋め込むことができ、攻撃者に莫大な拡散経路を与えます 。
人間の検知を完全にすり抜けるステルス性。 敵対的な音の変化は、人間の知覚閾値よりも下になるよう慎重に整形されています。ユーザーは不審な点を何も聞き取れず、自分のアシスタントが乗っ取られたと疑う理由は一切ありません 。
再利用可能で永続的な脅威。 一度作成された敵対的音声は、再生されるたびに同じように機能します。発見されたら修正プログラム(パッチ)が当てられるソフトウェアのバグと異なり、細工された音声ファイルは被害者を何度でも攻撃できます。根本的な脆弱性は、簡単に修正できるバグではなく、モデルの基本構造そのものに潜んでいるのです 。
特定のモデルに依存しない横断的な脅威。 AudioHijackは、13種類もの異なる最先端LALMに対して実験が成功しました。このことは、脆弱性が特定の製品の実装ミスではなく、これらのモデルが音声を「処理する方法」そのものに共通して内在する問題である可能性を示唆しています 。
研究者たちが言及する、現時点で有効性が実証された唯一の防衛策は、AIモデル内部の「注意機構」を監視し、悪意ある音声による誘導を検知・遮断するという方法です。
これは、防御側が常にモデル内部の状態を監視し続けなければならない「いたちごっこ」の様相を呈します。大規模に展開する場合、この監視は計算コストが高く、ユーザーのプライバシーを侵害する可能性もはらんでいます。
より広範な示唆として、AIアシスタントの音声入力パイプラインは、テキストベースのインターフェースと比較して、セキュリティ面での精査が根本的に遅れていることが浮き彫りになりました。テキストを介したプロンプトインジェクションは十分に研究されてきた脅威ですが、音声というモダリティへの移行は、業界がまだ理解し始めたばかりの、はるかに広大な攻撃対象領域を開いてしまっているのです。
Comments
0 comments