Những cuộc tấn công trước đây vào trợ lý giọng nói thường dựa vào việc kích hoạt từ đánh thức – phát một đoạn ghi âm "Hey Siri" hay "OK Google" để khởi động trợ lý, sau đó phát tiếp các lệnh độc hại. AudioHijack nguy hiểm hơn nhiều vì nó nhắm vào các LALMs thế hệ mới, vốn có khả năng tự động thực hiện các hành động phức tạp gồm nhiều bước – như gửi email, truy cập dữ liệu cá nhân, điều khiển thiết bị nhà thông minh – mà không cần bất kỳ cụm từ kích hoạt nào .
Bước đột phá thực sự nằm ở cách cuộc tấn công vượt qua quá trình token hóa âm thanh của mô hình. LALMs chuyển đổi âm thanh thô thành các token rời rạc, một quá trình thường phá vỡ các phương pháp tối ưu hóa dựa trên gradient vì bước rời rạc hóa này không khả vi. AudioHijack khắc phục điều này bằng cách sử dụng ước lượng gradient dựa trên lấy mẫu, xấp xỉ gradient thông qua bộ token hóa kiểu hộp đen, cho phép tạo âm thanh đối kháng đầu-cuối bất chấp pipeline không khả vi .
Pipeline kỹ thuật của AudioHijack trải qua nhiều giai đoạn riêng biệt:
Tạo âm thanh đối kháng: Kẻ tấn công khởi đầu với một chỉ thị mục tiêu – ví dụ như "tìm kiếm và tải xuống các tệp tin nhạy cảm". Một thuật toán tối ưu hóa sẽ làm nhiễu loạn dạng sóng âm thanh một cách không thể nghe thấy, liên tục kiểm tra phản hồi của mô hình và tinh chỉnh dạng sóng cho đến khi mô hình thực thi lệnh độc hại một cách đáng tin cậy, trong khi âm thanh vẫn giống như tiếng ồn nền thông thường đối với tai người .
Giám sát sự chú ý: Cuộc tấn công điều hướng cơ chế chú ý nội tại của mô hình về phía phân đoạn âm thanh đối kháng. Điều này đảm bảo chỉ thị ẩn sẽ chi phối hành vi của mô hình, ngay cả khi giọng nói hợp pháp của người dùng cũng đang được xử lý đồng thời .
Huấn luyện bất khả tri ngữ cảnh: Các nhà nghiên cứu huấn luyện âm thanh đối kháng qua rất nhiều bối cảnh hội thoại khác nhau – nhiều loại tiếng ồn nền, lệnh của người dùng và các kịch bản tương tác. Kết quả là một đoạn âm thanh dài 30 phút được chế tạo để có thể hoạt động bất kể người dùng đang nói gì hay làm gì tại thời điểm bị tấn công .
Pha trộn tự nhiên: Một phương pháp pha trộn tích chập (convolutional blending) sẽ điều biến nhiễu loạn thành thứ âm thanh giống như hiện tượng vang âm tự nhiên trong phòng. Với tai người, nó chỉ là tiếng vọng mờ nhạt hoặc tông nền; nhưng với mô hình AI, đó lại là một tập hợp các chỉ thị ghi đè .
AudioHijack đặt ra một thách thức phòng thủ đặc biệt khó khăn vì một số lý do.
Không cần tương tác của người dùng: Không giống như phishing hay phần mềm độc hại trên ứng dụng, người dùng không cần nhấp chuột, cài đặt hay cấp quyền gì. Chỉ cần phát nội dung âm thanh gần một thiết bị được trang bị AI là đủ để kích hoạt tấn công. Việc nhúng tín hiệu độc hại vào video YouTube, podcast, quảng cáo âm thanh trực tuyến hay thậm chí là cuộc gọi VOIP mang lại cho kẻ tấn công một bề mặt phân phối rộng lớn .
Khả năng tàng hình đánh bại sự phát hiện của con người: Nhiễu loạn đối kháng được định hình cẩn thận để nằm dưới ngưỡng cảm nhận. Người dùng không nghe thấy gì khả nghi và không có lý do gì để nghi ngờ trợ lý của họ đã bị chiếm quyền .
Có thể tái sử dụng và dai dẳng: Cùng một âm thanh đối kháng hoạt động mỗi khi được phát. Không giống như các lỗ hổng phần mềm sẽ được vá khi bị phát hiện, một tệp âm thanh được chế tạo có thể khai thác nạn nhân lặp đi lặp lại, và lỗ hổng cơ bản nằm trong kiến trúc nền tảng của mô hình, không phải là một lỗi phần mềm có thể sửa nóng .
Mối đe dọa bất khả tri mô hình: AudioHijack đã được thử nghiệm thành công trên 13 LALMs tiên tiến khác nhau, cho thấy lỗ hổng này là cố hữu trong cách các mô hình này xử lý âm thanh, thay vì chỉ giới hạn ở một triển khai cụ thể .
Các nhà nghiên cứu lưu ý rằng biện pháp phòng thủ hiệu quả duy nhất được chứng minh cho đến nay là giám sát cơ chế chú ý nội tại của mô hình để phát hiện và chặn các hướng dẫn âm thanh độc hại. Tuy nhiên, kẻ tấn công có thể thích ứng bằng cách tinh chỉnh cường độ điều hướng chú ý, làm giảm tỷ lệ bị phát hiện xuống trong khi chỉ giảm nhẹ tỷ lệ thành công của cuộc tấn công .
Điều này tạo ra một động thái "mèo vờn chuột", nơi các nhà phòng thủ phải liên tục giám sát trạng thái nội tại của mô hình – một cách tiếp cận tốn kém về mặt tính toán và có khả năng xâm phạm quyền riêng tư nếu được triển khai trên quy mô lớn.
Hàm ý rộng hơn là pipeline đầu vào âm thanh cho các trợ lý AI về cơ bản ít được giám sát kỹ lưỡng hơn so với các giao diện dựa trên văn bản. Trong khi tiêm nhiễm lệnh qua văn bản là một mối đe dọa đã được khám phá kỹ, việc chuyển đổi sang các phương thức âm thanh đã mở ra một bề mặt tấn công rộng lớn hơn nhiều mà ngành công nghiệp chỉ mới bắt đầu hiểu được.
Comments
0 comments