Câu trả lờiĐã xuất bản2 tháng trướcLast edited tháng trước22 nguồn

Cisco cảnh báo: Mọi mô hình AI tiên phong đều thất bại trước tấn công hội thoại đa lượt

Cisco thử nghiệm 15 mô hình AI đóng từ OpenAI, Google, xAI, Anthropic và Amazon: tỉ lệ tấn công đa lượt thành công dao động từ 7,89% đến 88,30%. xAI – Grok 4.1 Fast là mô hình dễ bị tấn công nhất, Google – Gemini 3 Pro tăng gấp 4 lần nguy cơ khi bị tấn công đa lượt.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Conceptual AI-generated illustration symbolizing a frontier AI model under persistent multi-turn adversarial attack, with layered prompts chipping away at a digital shield. — Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what recoCisco's adversarial testing reveals that even the most advanced AI safety shields can be eroded by iterative, multi-turn conversational attacks.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what reco. Article summary: Cisco's May 2026 research, published as *Proprietary Problems* with a companion open-weight study *Death by a Thousand Prompts*, tested 15 closed flagship models and eight open-weight models against both single-turn and . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "### Cisco report finds no closed frontier AI model is safe from multi-turn attacks. A new report out today from Cisco Systems Inc. argues that none of the closed flagship large lan" source context "Cisco report finds no closed frontier AI model is safe from multi-turn attacks - SiliconANGLE" Reference image 2: visual s
openai.com

Nghiên cứu tháng 5 năm 2026 của Cisco, được công bố với tiêu đề Proprietary Problems cùng nghiên cứu bổ trợ về mô hình nguồn mở Death by a Thousand Prompts, đã đưa ra một kết luận gây chấn động: không một mô hình AI tiên phong nào an toàn trước các cuộc tấn công lặp đi lặp lại. Các bài kiểm tra an toàn đơn lượt hiện tại chỉ là thước đo kém chính xác cho lỗ hổng trong thế giới thực.

Nhóm nghiên cứu đã thử nghiệm 15 mô hình độc quyền và 8 mô hình nguồn mở, sử dụng hơn 30.000 lời nhắc đơn lẻ và gần 7.000 chuỗi tấn công đa lượt trên hơn 1.400 cuộc hội thoại. Kết quả cho thấy một bức tranh đáng lo ngại về khả năng phòng thủ của các mô hình trước những kẻ tấn công kiên trì.

Những mô hình dễ tổn thương nhất

Tỉ lệ tấn công đa lượt thành công (ASR) trên các mô hình đóng dao động từ 7,89% đến 88,30%, trong khi cùng các mô hình đó ở chế độ đơn lượt chỉ ghi nhận tỉ lệ từ 2,19% đến 64,91%. Mức tăng này cho thấy sự khác biệt rõ rệt giữa phòng thủ tĩnh và động.

xAI – Grok 4.1 Fast (phiên bản không suy luận): Dễ bị tấn công nhất với ASR đa lượt lên tới 88,30%. Một điểm đáng chú ý khác là khi kích hoạt chế độ suy luận, con số này giảm xuống còn 43,47% – một biến động an toàn chưa từng được điểm chuẩn công khai nào ghi nhận.
Google – Gemini 3 Pro: Tăng từ 18,10% (đơn lượt) lên 73,35% (đa lượt), gấp 4 lần.
OpenAI – GPT-5.4: Dù có điểm an toàn đơn lượt rất thấp (2,74%), tỉ lệ thành công khi bị tấn công đa lượt nhảy vọt lên 24,68%, tăng gấp 9 lần.
Anthropic – Dòng Claude (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5): Mạnh mẽ nhất trong việc từ chối yêu cầu đơn lẻ (ASR 2,19%–3,64%) nhưng vẫn ghi nhận ASR đa lượt ở mức 11,16%–16,20%.
Amazon – Nova 2 Lite: Có tỉ lệ tấn công đa lượt thành công thấp nhất ở mức 7,89%, nhưng Cisco vẫn coi đây là "rủi ro tồn dư đáng kể".

Trong nghiên cứu trước đó về mô hình nguồn mở, ASR đa lượt chạm ngưỡng 92,78% đối với Mistral Large-2, với tỉ lệ thành công cao gấp 2 đến 10 lần so với điểm chuẩn đơn lượt trên tất cả tám mô hình được thử nghiệm.

Năm gia đình chiến lược tấn công bị phát hiện

Cisco đã xác định và thử nghiệm năm gia đình chiến lược tấn công đa lượt chính, mô phỏng cách một kẻ tấn công thực thụ vận hành :

Nhập vai / Áp dụng nhân vật: Kẻ tấn công hóa thân thành một nhân vật hoặc vai trò nhất định để từng bước lái cuộc trò chuyện đến nội dung bị cấm.
Đánh lạc hướng ngữ cảnh: Che giấu ý đồ độc hại trong văn bản tưởng chừng vô hại hoặc mơ hồ qua từng lượt tương tác.
Định hình lại lời từ chối: Tận dụng lời từ chối của mô hình để định hình lại yêu cầu mới, tiếp cận ranh giới hạn chế một cách từ từ.
Phân tách và tái hợp thông tin: Chia nhỏ một yêu cầu độc hại thành nhiều phần nhỏ qua các lượt, sau đó để mô hình tự lắp ghép lại.
Tăng tiến (Crescendo): Bắt đầu bằng những yêu cầu vô thưởng vô phạt và leo thang dần qua từng phiên hội thoại, bào mòn các lớp phòng thủ an toàn.

Khoảng cách về mức độ phơi nhiễm giữa mô hình dễ bị tấn công nhất và khó bị tấn công nhất thay đổi đáng kể tùy theo từng gia đình chiến lược, xác nhận rằng lỗ hổng bảo mật không đồng nhất trên mọi hướng tấn công.

Khuyến nghị của Cisco về việc đánh giá và triển khai Mô hình Ngôn ngữ Lớn một cách an toàn

Từ bỏ lấy ASR đơn lượt làm thước đo đại diện. Các bài kiểm tra đơn lẻ tự nó đã xếp hạng sai các mô hình và che giấu rủi ro thực sự. Mọi đánh giá phải bao gồm thử nghiệm tấn công đa lượt và thích ứng để phản ánh đúng hành vi của đối thủ.
Đưa đánh giá đa lượt thành quy trình chuẩn. Người mua và cơ quan quản lý nên đặt câu hỏi: "Mô hình này chống chịu các cuộc tấn công đa lượt, thích ứng như thế nào?" trước khi quyết định mua sắm hay triển khai.
Triển khai cơ chế kiểm soát và giám sát thời gian thực. An toàn mô hình tĩnh là chưa đủ. Các tổ chức cần có khả năng phát hiện theo thời gian thực các mẫu hội thoại bất thường và hành vi kiểm tra ranh giới hệ thống.
Thường xuyên diễn tập tấn công mô phỏng (red-teaming) tập trung vào các kịch bản tấn công hội thoại lặp đi lặp lại – không chỉ những nỗ lực bẻ khóa đơn lẻ.
Áp dụng huấn luyện đối kháng để cải thiện tính bền vững của mô hình, tập trung vào duy trì an toàn xuyên suốt các lượt tương tác.
Sử dụng phòng thủ đa lớp: Không một lớp phòng ngự đơn lẻ nào là đủ. Hãy kết hợp căn chỉnh mô hình, bộ lọc đầu vào/đầu ra, giám sát hành vi và sự giám sát của con người.
Hiểu rõ triết lý căn chỉnh của nhà phát triển. Các mô hình từ phòng thí nghiệm công khai chú trọng an toàn (ví dụ: dòng Gemma của Google) cho thấy khoảng cách hẹp hơn giữa tấn công đơn và đa lượt, trong khi các mô hình ưu tiên năng lực (như Llama của Meta, Grok của xAI) có khoảng cách lớn hơn. Cisco khuyên các tổ chức nên coi đây là một yếu tố trong việc lựa chọn mô hình.
Sử dụng các công cụ đánh giá có cấu trúc như Nền tảng AI Validation của Cisco (hiện là một phần của Bảng xếp hạng Bảo mật LLM) để tạo ra các điểm số rủi ro đa lượt, có thể so sánh và tái lập được trước khi triển khai.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Cisco cảnh báo: Mọi mô hình AI tiên phong đều thất bại trước tấn công hội thoại đa lượt" là gì?

Cisco thử nghiệm 15 mô hình AI đóng từ OpenAI, Google, xAI, Anthropic và Amazon: tỉ lệ tấn công đa lượt thành công dao động từ 7,89% đến 88,30%.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Cisco khuyến nghị từ bỏ bài kiểm tra đơn lượt hiện tại và áp dụng các lớp phòng thủ theo chiều sâu như giám sát thời gian thực và huấn luyện đối kháng.

Nguồn

← Back to Trending