Serangan terdahulu pada asisten suara biasanya mengandalkan aktivasi kata kunci—memutar rekaman perintah "Hey Siri" atau "OK Google" untuk memicu asisten, lalu mengeluarkan perintah berbahaya yang terdengar. AudioHijack jauh lebih berbahaya karena menargetkan LALMs generatif yang dapat secara otonom menjalankan tindakan multi-langkah yang kompleks—mengirim email, mengakses data pribadi, mengendalikan perangkat rumah pintar—tanpa frasa pemicu yang terdengar sama sekali .
Lompatan sesungguhnya adalah bagaimana serangan ini melewati tokenisasi audio model. LALMs mengonversi audio mentah menjadi token diskrit, sebuah proses yang biasanya mematahkan optimasi berbasis gradien karena langkah diskritisasi tidak dapat didiferensialkan. Kerangka kerja AudioHijack mengatasi ini menggunakan estimasi gradien berbasis sampling, yang memperkirakan gradien melalui tokenizer kotak hitam, memungkinkan pembuatan audio adversarial ujung-ke-ujung meskipun melalui jalur non-diferensiabel .
Jalur teknisnya memiliki beberapa tahapan yang berbeda:
Membuat audio adversarial. Penyerang memulai dengan instruksi target—misalnya, "cari dan unduh file sensitif." Sebuah algoritma optimasi mengubah bentuk gelombang audio secara tak terdengar, berulang kali menguji respons model dan menyempurnakan bentuk gelombang hingga model dengan andal menjalankan perintah berbahaya, sementara audio tersebut tetap terdengar seperti suara latar normal bagi manusia .
Pengawasan atensi. Serangan ini mengarahkan mekanisme atensi internal model menuju segmen audio adversarial. Ini memastikan instruksi tersembunyi mendominasi perilaku model, bahkan ketika suara pengguna yang sah juga sedang diproses .
Pelatihan konteks-agnostik. Para peneliti melatih audio adversarial di berbagai konteks percakapan—berbagai suara latar, perintah pengguna, dan skenario interaksi. Hasilnya adalah satu sinyal berdurasi 30 menit yang dapat bekerja terlepas dari apa yang dikatakan atau dilakukan pengguna pada saat serangan .
Penyatuan alami. Sebuah metode pencampuran konvolusional memodulasi gangguan ke dalam apa yang terdengar seperti gema ruangan alami. Bagi telinga manusia, itu hanyalah gema samar atau nada ambien; bagi model AI, itu adalah serangkaian instruksi yang menimpa .
AudioHijack menghadirkan tantangan pertahanan yang unik karena beberapa alasan.
Tidak perlu interaksi pengguna. Tidak seperti phishing atau malware berbasis aplikasi, pengguna tidak mengeklik apa pun, menginstal apa pun, atau memberikan izin apa pun. Cukup memutar konten audio di dekat perangkat ber-AI sudah cukup untuk memicu serangan. Menyematkan sinyal berbahaya ke dalam video YouTube, podcast, iklan audio streaming, atau bahkan panggilan VOIP memberi penyerang permukaan distribusi yang sangat luas .
Siluman yang mengalahkan deteksi manusia. Gangguan adversarial dibentuk dengan hati-hati agar berada di bawah ambang persepsi. Pengguna tidak mendengar sesuatu yang mencurigakan dan tidak punya alasan untuk curiga asisten mereka telah dikomando .
Dapat digunakan kembali dan persisten. Audio adversarial yang sama bekerja setiap kali diputar. Tidak seperti eksploitasi perangkat lunak yang ditambal setelah ditemukan, file audio yang dibuat dapat mengeksploitasi korban berulang kali, dan kerentanannya ada pada arsitektur fundamental model, bukan bug perangkat lunak yang bisa di-hotfix .
Ancaman model-agnostik. AudioHijack berhasil diuji pada 13 LALM tercanggih yang berbeda, menunjukkan bahwa kerentanan ini bersifat endemik pada cara model ini memproses audio, bukan terbatas pada implementasi tertentu .
Para peneliti mencatat bahwa satu-satunya pertahanan efektif yang didemonstrasikan sejauh ini adalah memantau mekanisme atensi internal model untuk mendeteksi dan mencegat panduan audio berbahaya. Namun, penyerang dapat beradaptasi dengan menyempurnakan kekuatan pengarah atensi, mengurangi tingkat deteksi sementara hanya sedikit menurunkan keberhasilan serangan .
Ini menciptakan dinamika kejar-kejaran di mana para pembela harus terus-menerus memantau keadaan model internal—sebuah pendekatan yang mahal secara komputasi dan berpotensi invasif privasi jika diterapkan dalam skala besar.
Implikasi yang lebih luas adalah bahwa jalur input audio untuk asisten AI secara fundamental kurang diawasi dibandingkan antarmuka berbasis teks. Sementara injeksi perintah melalui teks adalah ancaman yang sudah banyak dieksplorasi, pergeseran ke modalitas audio membuka permukaan serangan yang jauh lebih luas yang baru mulai dipahami oleh industri.
Comments
0 comments