Nghiên cứu tháng 5 năm 2026 của Cisco, được công bố với tiêu đề Proprietary Problems cùng nghiên cứu bổ trợ về mô hình nguồn mở Death by a Thousand Prompts, đã đưa ra một kết luận gây chấn động: không một mô hình AI tiên phong nào an toàn trước các cuộc tấn công lặp đi lặp lại. Các bài kiểm tra an toàn đơn lượt hiện tại chỉ là thước đo kém chính xác cho lỗ hổng trong thế giới thực. ![]()
![]()
![]()
Nhóm nghiên cứu đã thử nghiệm 15 mô hình độc quyền và 8 mô hình nguồn mở, sử dụng hơn 30.000 lời nhắc đơn lẻ và gần 7.000 chuỗi tấn công đa lượt trên hơn 1.400 cuộc hội thoại. Kết quả cho thấy một bức tranh đáng lo ngại về khả năng phòng thủ của các mô hình trước những kẻ tấn công kiên trì. ![]()
Những mô hình dễ tổn thương nhất
Tỉ lệ tấn công đa lượt thành công (ASR) trên các mô hình đóng dao động từ 7,89% đến 88,30%, trong khi cùng các mô hình đó ở chế độ đơn lượt chỉ ghi nhận tỉ lệ từ 2,19% đến 64,91%. Mức tăng này cho thấy sự khác biệt rõ rệt giữa phòng thủ tĩnh và động. ![]()
- xAI – Grok 4.1 Fast (phiên bản không suy luận): Dễ bị tấn công nhất với ASR đa lượt lên tới . Một điểm đáng chú ý khác là khi kích hoạt chế độ suy luận, con số này giảm xuống còn 43,47% – một biến động an toàn chưa từng được điểm chuẩn công khai nào ghi nhận.
Comments
0 comments