Một cuộc tấn công có thể diễn ra chỉ trong vài bước kín đáo:
/proc/self/environ sk-ant-) khỏi ANTHROPIC_API_KEY để tránh bị các trình quét bí mật tự động phát hiện Bề mặt tấn công này – nơi các chỉ thị ngôn ngữ tự nhiên được tiêm vào dữ liệu trở thành các lệnh khả thi – chính là cốt lõi của prompt injection (tiêm lệnh qua lời nhắc), một vectơ đe dọa đang nhanh chóng định hình bối cảnh an ninh cho các tác tử AI.
Một chi tiết quan trọng là đây là một tiết lộ có phối hợp, nơi bản vá đến trước.
Tiết lộ về Claude Code xuất hiện trong bối cảnh một đánh giá an ninh toàn diện hơn. Một ngày trước đó, vào ngày 4 tháng 6 năm 2026, Nhóm Red Team AI của Microsoft đã xuất bản phiên bản 2.0 của Bảng phân loại các phương thức thất bại trong Hệ thống AI tác tử (Taxonomy of Failure Modes in Agentic AI Systems) . Bản cập nhật lớn này, dựa trên mười hai tháng thực chiến (red-team engagements) chống lại các tác tử đã được triển khai, đã bổ sung bảy hạng mục thất bại hoàn toàn mới, vượt xa một lỗ hổng thực thi mã đơn lẻ.
Các phương thức thất bại mới này thể hiện một sự leo thang đáng kể trong cách các nhà nghiên cứu bảo mật nghĩ về các hệ thống AI tự hành:
Bảng phân loại mở rộng này đã đưa khuôn khổ từ 27 phương thức thất bại ban đầu lên 34, phản ánh sự phức tạp ngày càng tăng và dấu ấn thực tế của các hệ thống tác tử .
Để đối phó với trường hợp của Claude Code và bản cập nhật bảng phân loại rộng hơn, Microsoft đã vạch ra một loạt khuyến nghị bảo mật cho bất kỳ đội nhóm nào tích hợp tác tử AI vào quy trình xây dựng của họ. Hướng dẫn này nhấn mạnh rằng cô lập một phần chỉ là sự an ủi giả tạo.
Xuyên suốt hướng dẫn này là một nguyên tắc kiến trúc cốt lõi mà cộng đồng bảo mật gọi là "Quy tắc Hai" (Rule of Two) . Bắt nguồn từ khuôn khổ tháng 10 năm 2025 của Meta về bảo mật tác tử thực tế, quy tắc này nói rằng một tác tử phải thỏa mãn không quá hai trong ba điều kiện sau: xử lý đầu vào không đáng tin cậy, có quyền truy cập vào dữ liệu nhạy cảm và có khả năng thực thi các hành động thay đổi trạng thái bên ngoài . Lỗ hổng Claude Code là một vi phạm kinh điển của nguyên tắc này, vì tác tử đồng thời xử lý đầu vào từ một PR không đáng tin cậy và nắm giữ thông tin xác thực mạnh mẽ.
Comments
0 comments