Các nhà nghiên cứu AI trên toàn thế giới đều đồng tình rằng yêu cầu "zero jailbreak" là không thể đạt được với các phương pháp hiện tại . Lý do nằm sâu trong nền tảng toán học của cách các mô hình ngôn ngữ lớn hoạt động.
Nghịch lý Jailbreak. Một bài báo trên arXiv năm 2024 (được cập nhật tháng 5 năm 2026) đã chính thức chứng minh hai nghịch lý: thứ nhất, không thể xây dựng một bộ phân loại jailbreak hoàn hảo; thứ hai, một mô hình yếu hơn không thể phát hiện một cách nhất quán liệu một mô hình mạnh hơn có bị vượt rào hay không . Đây không phải là một lỗi có thể sửa — mà là một giới hạn toán học cố hữu trong cách định nghĩa 'alignment' (sự phù hợp).
Cuộc chạy đua vũ trang đối kháng. Jailbreak là một vấn đề mang tính đối kháng cơ bản. Những kẻ tấn công liên tục khám phá ra các mẫu prompt mới, thủ thuật mã hóa và chiến lược đa lượt để vượt qua các bộ lọc hiện có. Ngay khi một loại jailbreak bị vá, các biến thể mới lại xuất hiện .
Tự động hóa việc vượt rào. Một nghiên cứu tháng 3 năm 2026 trên tạp chí Nature Communications cho thấy các mô hình suy luận lớn (large reasoning models) có thể hoạt động như các tác nhân vượt rào tự động, đạt tỷ lệ thành công lên tới 97,14% trong tất cả các tổ hợp mô hình được thử nghiệm . Bề mặt tấn công đang ngày càng mở rộng.
Đồng thuận của chuyên gia. Các chuyên gia an ninh cho biết việc chặn hoàn toàn jailbreak "sẽ khiến mọi hoạt động triển khai AI tiên tiến phải dừng lại" — tiêu chuẩn này không phải là một mục tiêu sửa lỗi mà là một điều không tưởng .
Yêu cầu này không xuất hiện trong chân không. Nó là kết quả của một chuỗi các áp lực gia tăng từ chính phủ lên Anthropic:
Mâu thuẫn với Lầu Năm Góc trước đó. Anthropic đã có tranh chấp với chính phủ về các tương tác với Lầu Năm Góc, nơi đã coi công ty là "rủi ro chuỗi cung ứng", yêu cầu các cơ quan liên bang hạn chế hoặc ngừng sử dụng sản phẩm của họ .
Ngòi nổ từ Amazon. CEO Amazon, Andy Jassy, được cho là đã báo cáo với Nhà Trắng về các mối lo ngại cụ thể về an ninh của Fable 5, thúc đẩy sự can thiệp của chính quyền . Ít nhất năm công ty khác cũng đã lên tiếng báo động
.
Lệnh đóng cửa đột ngột. Lúc 5:21 chiều ET ngày 12 tháng 6, Anthropic nhận được thư từ Bộ Thương mại. Đến khoảng 10 giờ tối, cả hai mô hình đã bị tắt đối với mọi khách hàng trên toàn thế giới — đánh dấu lần đầu tiên Mỹ áp dụng kiểm soát xuất khẩu đối với một mô hình AI thương mại đã được công chúng sử dụng .
Tối hậu thư 'zero jailbreak'. Sau khi đóng cửa, Nhà Trắng leo thang từ hạn chế xuất khẩu sang áp đặt một tiêu chuẩn an ninh bất khả thi về mặt kỹ thuật như một điều kiện tiên quyết để phát hành trong tương lai .
TechCrunch nhận định toàn bộ sự việc là một động thái chính trị mà "chưa bao giờ thực sự là về việc vượt rào AI" — một tín hiệu cho thấy chính phủ sẵn sàng đơn phương quyết định khi nào một mô hình AI quá nguy hiểm để vận hành .
Lập trường của Nhà Trắng, theo nhiều hãng tin, là mô hình Fable 5 của Anthropic chỉ có thể quay lại nếu công ty làm cho việc vượt rào trở nên bất khả thi . Đây không phải là yêu cầu cải tiến dần dần hay một quy trình quản lý lỗ hổng phân cấp — mà là một yêu cầu tuyệt đối: hoặc không có vụ vượt rào nào, hoặc mô hình không thể được triển khai
.
Anthropic đã phản bác, tuyên bố rằng "chưa có người thử nghiệm nào tìm ra được một phương pháp vượt rào phổ quát" và việc tránh hoàn toàn mọi vụ vượt rào là điều không thể đối với họ hoặc bất kỳ công ty nào khác . Công ty cũng lưu ý rằng họ "thậm chí còn chưa nhận được thông báo về một vụ vượt rào tiềm năng không phổ quát đáng lo ngại nào dẫn đến kết quả có hại"
.
Dựa trên các báo cáo từ nhiều nguồn, Anthropic đang đối mặt với ba hướng đi chiến lược:
1. Tuân thủ và đàm phán. CEO Dario Amodei đã gặp các quan chức Nhà Trắng vào ngày 15 tháng 6 để thương lượng một khuôn khổ đánh giá lỗ hổng có thể chấp nhận được — thay thế tiêu chuẩn tuyệt đối 'zero jailbreak' bằng một tiêu chuẩn phân cấp mức độ nghiêm trọng . Theo Politico, Nhà Trắng và Anthropic đang hợp tác để xây dựng một khuôn khổ đánh giá mức độ nghiêm trọng của các lỗ hổng bảo mật
. Đây là con đường mà Anthropic dường như đang theo đuổi.
2. Thách thức tư pháp hoặc chính trị. Anthropic có thể kiện lệnh kiểm soát xuất khẩu ra tòa, lập luận rằng chính phủ đã vượt quá thẩm quyền theo luật định hoặc vi phạm thủ tục tố tụng khi áp dụng các biện pháp kiểm soát xuất khẩu một cách hồi tố cho một sản phẩm thương mại đã được công bố rộng rãi . Đây sẽ là một bước đi rủi ro cao, có thể tạo ra tiền lệ mang tính bước ngoặt.
3. Tái cấu trúc hoặc di dời hoạt động. Anthropic có thể giới hạn việc phát hành mô hình ở các khu vực pháp lý có môi trường quản lý dễ dự đoán hơn, hoặc cơ cấu lại công ty để tách biệt các sản phẩm phục vụ Mỹ và toàn cầu. Một số nhà phân tích mô tả đây là "lựa chọn hạt nhân" sẽ làm thay đổi hoàn toàn mô hình kinh doanh của Anthropic.
Cuộc tranh chấp này kết tinh ba căng thẳng cơ bản sẽ định hình tương lai của AI tiên tiến:
Thực tế kỹ thuật đối đầu với chủ nghĩa tuyệt đối trong quản lý. Chính phủ đang yêu cầu một sự đảm bảo — zero jailbreak — mà khoa học máy tính khẳng định là không thể . Nếu chính quyền khăng khăng giữ tiêu chuẩn này, họ sẽ có quyền phủ quyết hiệu quả đối với bất kỳ bản phát hành mô hình tiên tiến nào, vì không phòng thí nghiệm nào có thể đáp ứng được yêu cầu đó.
Kiểm soát xuất khẩu đối với phần mềm công khai. Lần đầu tiên, Mỹ áp dụng kiểm soát xuất khẩu đối với một mô hình AI thương mại đã được công chúng truy cập . Điều này tạo ra tiền lệ rằng bất kỳ phòng thí nghiệm AI nào cũng có thể bị ra lệnh đóng cửa sản phẩm chỉ sau một đêm dựa trên một quyết định an ninh quốc gia đơn phương.
Độc lập đối đầu với sự giám sát trên thực tế. Anthropic được thành lập với sứ mệnh chú trọng vào an toàn và độc lập. Hành động của Nhà Trắng cho thấy ngay cả những phòng thí nghiệm "có trách nhiệm" nhất cũng có thể bị buộc phải tuân thủ các tiêu chuẩn chính phủ bất khả thi về mặt kỹ thuật — hoặc sản phẩm của họ sẽ bị tắt . Như Bloomberg đã nhận xét, việc chặn này đánh dấu một "sự đảo ngược của Mỹ" và một "lời cảnh báo tới Thung lũng Silicon" rằng kỷ nguyên tự quản lý trong triển khai AI tiên tiến có thể đã kết thúc
.
Comments
0 comments