Vào ngày 10 tháng 6, chuyên gia đội đỏ ẩn danh Pliny the Liberator thông báo đã vượt qua các bộ phân loại an toàn của Fable 5, trích xuất lời nhắc hệ thống dài 120.000 ký tự (được công bố trên GitHub), và khiến mô hình đưa ra mã khai thác lỗ hổng, các bước tấn công an ninh mạng và hướng dẫn hóa học bị hạn chế . Tốc độ vượt qua – trong vòng 24 đến 48 giờ sau khi ra mắt
– đã biến nó thành một bước ngoặt trong cuộc tranh luận công khai đang ngày càng căng thẳng về việc liệu AI tiên tiến có thể được quản lý hiệu quả bằng các phương pháp an toàn hiện tại hay không.
Pliny mô tả cách tiếp cận của mình là một cuộc "săn bầy" (pack hunt) – một kỹ thuật đa tác nhân phối hợp thay vì chỉ là một lời nhắc duy nhất khéo léo . Cuộc tấn công kết hợp nhiều chiến lược đối kháng, mỗi chiến lược đóng góp một phần vào việc vượt qua hàng rào một cách tích lũy:
Kết quả là một vụ vượt qua đã tạo ra mã khai thác hoạt động, hướng dẫn tổng hợp hóa học chi tiết và toàn bộ lời nhắc hệ thống mà Anthropic đã thiết kế xung quanh Fable 5 .
Trước khi phát hành Fable 5, Anthropic đã đưa ra một tuyên bố an toàn công khai chi tiết khác thường:
Vụ bẻ khóa nhanh chóng đã trực tiếp làm suy yếu những con số này. Một hệ thống an toàn được chứng nhận bởi hơn một nghìn giờ kiểm tra đối kháng đã bị vượt qua bởi một nhà nghiên cứu duy nhất trong vòng một ngày – sử dụng các kỹ thuật không dựa trên bất kỳ lỗ hổng phần mềm mới nào, mà dựa trên các chiến lược lập lời nhắc kiểu tấn công kỹ thuật xã hội (social engineering) mà quá trình huấn luyện bộ phân loại rõ ràng đã bỏ sót .
Sự cố Fable 5 không phải là một sự kiện cá biệt. Nó tiếp tục một mô hình được ghi chép rõ ràng từ cùng một chuyên gia đội đỏ:
Nền tảng của lịch sử này là một sự thay đổi về phương pháp luận mà chính Pliny đã mô tả là "mô hình này bẻ khóa mô hình khác" . Thay vì thủ công tạo ra các lời nhắc ma thuật chỉ trong một lần duy nhất, kẻ tấn công thả một mô hình đã bị hỏng như một tác nhân tự động chống lại một mục tiêu mới. Cách tiếp cận đa bước, phân mảnh và có tính tác nhân này đã chứng minh là khó phát hiện hơn nhiều đối với các hệ thống an toàn dựa trên bộ phân loại so với các cuộc tấn công lời nhắc tĩnh mà các hệ thống đó phần lớn được huấn luyện để bắt.
Cộng đồng nghiên cứu rộng lớn hơn cũng đã quan sát thấy một sự phát triển tương tự. Công ty bảo mật Repello, phân tích xu hướng bẻ khóa trong năm 2026, lưu ý rằng các cuộc tấn công nguy hiểm nhất về mặt hoạt động không còn là bẻ khóa đơn lời nhắc mà là các chuỗi đối kháng đa bước tiến triển qua các bước dường như vô hại riêng lẻ – một mô tả rất khớp với khuôn khổ "săn bầy" .
Vụ bẻ khóa Fable 5 không chứng minh các tuyên bố an toàn của Anthropic là rỗng tuếch, nhưng nó làm nổi lên những câu hỏi khó chịu về khả năng mở rộng. Hơn 1.000 giờ kiểm tra đội đỏ bởi các tổ chức chuyên nghiệp đã không thể tìm ra điều mà một nhà nghiên cứu độc lập quyết tâm đã làm được trong vòng chưa đầy một ngày. Khoảng cách này cho thấy các chương trình chứng nhận hiện tại, dù nghiêm ngặt đến đâu, có thể đánh giá thấp một cách có hệ thống sự đa dạng của sự sáng tạo đối kháng trong thế giới thực – đặc biệt là xung quanh các cách tiếp cận có tính tác nhân, đa bước và lấy cảm hứng từ kỹ thuật xã hội.
Nó cũng đặt ra một tình thế tiến thoái lưỡng nan: nếu hàng rào bảo vệ của một mô hình đủ mạnh để chịu được nhiều tháng kiểm tra có cấu trúc nhưng lại sụp đổ khi đối mặt với một cuộc tấn công đa tác nhân phối hợp, thì "chứng nhận an toàn" thực sự có ý nghĩa gì đối với các mô hình tiên tiến được phát hành công khai? Tốc độ và tính lặp lại của mô hình bẻ khóa của Pliny trên nhiều công ty và kiến trúc khác nhau cho thấy thách thức này không cụ thể cho bất kỳ thiết kế mô hình nào mà có thể là đặc hữu trong mô hình hiện tại của các bộ phân loại an toàn ở cấp độ lời nhắc.
Comments
0 comments