Historiquement, les attaques contre les assistants vocaux reposaient sur l’activation par mot-clé : on diffusait un enregistrement « Dis Siri » ou « OK Google » pour réveiller l’assistant, puis des commandes audibles malveillantes. AudioHijack est bien plus dangereux car il cible directement les LALM génératifs, capables d’exécuter de manière autonome des actions complexes en plusieurs étapes — envoyer des e-mails, accéder à des données personnelles, contrôler des objets connectés — sans aucune phrase déclencheur audible .
La véritable avancée technique réside dans le contournement de la « tokenization » audio. Les LALM convertissent le son brut en unités discrètes (tokens), un processus qui bloque normalement l’optimisation par gradient, car cette étape de discrétisation n’est pas différentiable. Le framework AudioHijack surmonte ce problème grâce à une estimation de gradient par échantillonnage (sampling-based gradient estimation). Cette méthode approxime le gradient au travers du tokeniseur, vu comme une boîte noire, et permet ainsi de générer un audio antagoniste de bout en bout malgré la tuyauterie non différentiable .
Le pipeline technique se décompose en plusieurs étapes :
Conception de l’audio antagoniste. L’attaquant part d’une instruction cible, par exemple « cherche et télécharge des fichiers sensibles ». Un algorithme d’optimisation perturbe une forme d’onde audio de manière imperceptible. Il teste en boucle la réponse du modèle et affine la forme d’onde jusqu’à ce que le modèle exécute l’ordre malveillant de façon fiable, tandis que le son reste pour une oreille humaine un bruit de fond tout à fait ordinaire .
Supervision de l’attention. L’attaque oriente les mécanismes d’attention internes du modèle vers le segment audio antagoniste. Ainsi, l’instruction cachée domine le comportement du modèle, même quand une voix légitime est également en cours de traitement .
Entraînement indépendant du contexte. Les chercheurs entraînent l’audio antagoniste à travers une multitude de contextes de conversation — bruits de fond variés, commandes utilisateur diverses, scénarios d’interaction multiples. Résultat : un seul signal trafiqué de 30 minutes fonctionne indépendamment de ce que l’utilisateur dit ou fait au moment de l’attaque .
Fusion naturelle dans l’environnement sonore. Une méthode de fusion convolutionnelle module la perturbation pour lui donner l’apparence d’une réverbération naturelle de la pièce. À l’oreille, ce n’est qu’un léger écho ou une tonalité ambiante ; pour l’IA, c’est un ensemble d’instructions qui prend le dessus .
Plusieurs raisons rendent AudioHijack particulièrement coriace sur le plan défensif.
Aucune interaction de l’utilisateur. Contrairement à l’hameçonnage ou aux logiciels malveillants, l’utilisateur n’a rien à cliquer, rien à installer, aucune permission à accorder. Il suffit de diffuser un contenu audio à proximité d’un appareil doté d’IA. Intégrer le signal malveillant dans une vidéo YouTube, un podcast, une publicité audio en streaming, ou même un appel VoIP offre aux attaquants une surface de distribution immense .
Une discrétion qui déjoue la détection humaine. La perturbation antagoniste est soigneusement façonnée pour rester sous le seuil de perception. L’utilisateur n’entend rien d’anormal et n’a aucune raison de soupçonner que son assistant a été compromis .
Réutilisable et persistant. Le même fichier audio antagoniste fonctionne à chaque diffusion. À l’inverse d’une faille logicielle que l’on corrige une fois découverte, un fichier audio trafiqué peut compromettre une victime de façon répétée. La vulnérabilité sous-jacente se situe dans l’architecture fondamentale du modèle, pas dans un bogue que l’on peut corriger par une simple mise à jour .
Une menace indépendante du modèle. AudioHijack a été testé avec succès sur 13 modèles LALM de pointe, ce qui suggère que la vulnérabilité est inhérente à la manière dont ces modèles traitent l’audio, et non limitée à une implémentation particulière .
Les chercheurs notent que la seule défense efficace démontrée à ce jour consiste à surveiller le mécanisme d’attention interne du modèle pour détecter et intercepter le guidage audio malveillant. Cependant, les attaquants peuvent s’adapter en ajustant finement l’intensité du pilotage d’attention, réduisant ainsi le taux de détection tout en n’abaissant que modestement le taux de réussite de l’attaque .
On entre ainsi dans une dynamique du jeu du chat et de la souris, où les défenseurs doivent constamment scruter les états internes des modèles — une approche coûteuse en calcul et potentiellement intrusive pour la vie privée si elle est déployée à grande échelle.
La conséquence plus large est que le pipeline d’entrée audio des assistants IA est fondamentalement moins examiné que les interfaces textuelles. L’injection de requête via le texte est une menace bien étudiée, mais le basculement vers les modalités audio ouvre une surface d’attaque bien plus vaste que l’industrie commence seulement à appréhender.
Comments
0 comments