Các hạn chế không chỉ giới hạn ở an ninh mạng. Các hàng rào bảo vệ cũng nhắm vào các truy vấn liên quan đến sinh học, hóa học và quan trọng là hành vi 'chưng cất' mô hình AI. Điểm cuối cùng này đã thổi bùng một làn sóng chỉ trích riêng biệt, với một số nhà phát triển cáo buộc Anthropic sử dụng 'an toàn' như một cái cớ cho hành vi phản cạnh tranh, nhằm ngăn chặn các nhà phát triển AI khác sử dụng đầu ra của Fable 5 cho việc huấn luyện .
Hệ thống an toàn của Anthropic trong Fable 5 không chỉ là một cơ chế từ chối đơn giản. Nó là một hệ thống định tuyến được thiết kế để thất bại một cách âm thầm . Kiến trúc này hoạt động theo ba bước:
Anthropic tuyên bố rằng các bộ phân loại này kích hoạt trung bình trong chưa đến 5% tổng số phiên làm việc . Công ty đã công khai thừa nhận vấn đề gắn cờ quá mức. Người phát ngôn của công ty nói với Business Insider rằng các biện pháp an toàn "có thể gắn cờ các yêu cầu an toàn, trung lập hoặc lành tính", nhưng biện minh đó là sự đánh đổi cần thiết để công khai phát hành một mô hình có năng lực cơ bản mạnh mẽ như vậy
.
Quan điểm của Anthropic là các hàng rào bảo vệ 'bảo thủ' này là một lựa chọn có chủ ý và có trách nhiệm, không phải là một lỗi. Công ty lập luận rằng mô hình dòng Mythos cơ bản quá thành thạo trong các tác vụ như tìm kiếm và khai thác lỗ hổng phần mềm đến mức một bản phát hành công khai không hạn chế sẽ tạo ra nguy cơ bị lạm dụng thảm khốc không thể chấp nhận được .
Theo quan điểm của họ, các hàng rào bảo vệ là một sự thỏa hiệp trong thiết kế—một cách để cung cấp cho công chúng quyền truy cập vào một mô hình lập luận, viết mã và viết lách tiên tiến nhất, đồng thời 'đóng hộp' các khả năng nguy hiểm tiềm tàng nhất của nó . Họ định hình việc gắn cờ quá mức là cái giá tạm thời cho việc phát hành nhanh chóng một mô hình mạnh mẽ một cách "an toàn và nhanh chóng", cùng với cam kết sẽ tinh chỉnh các bộ phân loại theo thời gian
.
Không thể hiểu đầy đủ về sự ra mắt của Claude Fable 5 một cách riêng lẻ. Nó là một nửa của chiến lược triển khai hai cấp, đang trở thành một tiêu chuẩn công nghiệp mới cho các mô hình AI tiên phong .
Cùng ngày Fable 5 được phát hành, Anthropic cũng công bố Claude Mythos 5. Cả hai mô hình đều chia sẻ cùng một kiến trúc và trọng số cơ bản—chúng có cùng một "bộ não". Điểm khác biệt duy nhất nằm ở cấu hình an toàn. Mythos 5 đã loại bỏ các bộ phân loại trong các lĩnh vực nhạy cảm, mang lại cho nó toàn bộ khả năng không hạn chế .
Tuy nhiên, Mythos 5 không dành cho công chúng. Nó bị giới hạn cho một nhóm nhỏ các đối tác đã được kiểm tra, bao gồm các cơ quan chính phủ và các nhà vận hành cơ sở hạ tầng quan trọng, thông qua một sáng kiến có tên là Dự án Glasswing . Chương trình do chính phủ Hoa Kỳ hậu thuẫn này ban đầu được khởi động với 12 đối tác sáng lập, bao gồm những gã khổng lồ công nghệ như AWS, Google và Microsoft, để cho phép "những người phòng thủ mạng" sử dụng AI để tìm và vá các lỗ hổng phần mềm trên quy mô lớn
. Với bản phát hành Mythos 5, quyền truy cập đã được mở rộng lên khoảng 40 tổ chức
.
Bảng bên dưới minh họa sự khác biệt cơ bản:
Sự phân tách Fable/Mythos của Anthropic là ví dụ rõ ràng nhất về cái có thể được gọi là triển khai AI phân cấp theo năng lực. Trong mô hình mới này, một AI tiên phong duy nhất không chỉ là một sản phẩm. Toàn bộ sức mạnh của nó là một đặc quyền, không phải là điều đương nhiên và các hàng rào an toàn chính là cơ chế tạo ra sự khác biệt hóa sản phẩm .
Mô hình này không phải là duy nhất ở Anthropic. Các công ty AI hàng đầu khác, bao gồm OpenAI, cũng đã áp dụng các cách tiếp cận tương tự bằng cách cung cấp các phiên bản truy cập hạn chế của các mô hình tiên tiến nhất cho các đối tác an ninh quốc gia và nghiên cứu . Sự ra mắt của Fable/Mythos kết tinh một tương lai nơi các khả năng AI mạnh mẽ nhất được kiểm soát không phải bởi công nghệ, mà bởi tình trạng được kiểm duyệt, với các giao thức an toàn đóng vai trò như một cơ chế kiểm soát truy cập, một cách tiếp cận đang làm dấy lên một cuộc tranh luận rộng lớn hơn về sự tập trung hóa, công bằng và ý nghĩa thực sự của an toàn AI "công cộng".
Comments
0 comments