Nói đơn giản, thay vì chỉ thấy một bức tường toàn số, nhà nghiên cứu muốn tìm ra: khi Claude đang tạo một câu trả lời, những khái niệm nội bộ nào đã được kích hoạt . Đây là lớp bản đồ đầu tiên của “bộ não” mô hình, dù tất nhiên vẫn chỉ là bản đồ một phần.
Điểm mới hơn là Anthropic không chỉ dừng ở việc nhận diện từng feature riêng lẻ. Công ty đang nối các feature đó thành những “circuits” — các mạch tính toán — để hé lộ một phần đường đi biến các từ đầu vào thành các từ đầu ra của Claude .
Sự khác biệt này rất đáng chú ý. Một feature riêng lẻ có thể cho thấy một khái niệm nào đó xuất hiện trong mô hình. Nhưng một circuit giúp quan sát cách nhiều thành phần bên trong ảnh hưởng lẫn nhau trong lúc mô hình tạo câu trả lời . Với những hành vi giống suy luận, “đường đi” giữa các bước đôi khi quan trọng không kém từng khái niệm đơn lẻ.
Tháng 3/2025, Anthropic cho biết họ chia sẻ hai bài nghiên cứu: một bài mở rộng công việc nhận diện feature sang truy vết circuit, và một bài áp dụng bộ công cụ này để nhìn vào Claude 3.5 Haiku . Trong nghiên cứu về Claude 3.5 Haiku, nhóm xem xét các nhiệm vụ đơn giản đại diện cho 10 hành vi quan trọng của mô hình, theo cách Anthropic gọi là nghiên cứu “AI biology” — tạm hiểu là “sinh học AI”
.
Cụm từ này cho thấy tham vọng của Anthropic: không chỉ chấm điểm Claude từ bên ngoài — đúng hay sai, trôi chảy hay không, an toàn hay chưa — mà còn tìm các cơ chế bên trong có thể giải thích vì sao mô hình hành xử như vậy .
Một lời giải thích do Claude viết ra vẫn chỉ là văn bản do mô hình sinh ra. Trong khi đó, nghiên cứu diễn giải của Anthropic nhắm tới các phép tính nền đã góp phần tạo ra chính văn bản ấy .
Vì vậy, truy vết circuit là một loại bằng chứng khác. Nó không phải là một câu nhắc yêu cầu mô hình kể lại quá trình suy luận. Nó là nỗ lực quan sát trực tiếp một phần đường đi tính toán, bằng các công cụ được thiết kế để chuyển hoạt động neural thành cấu trúc dễ hiểu hơn với con người .
Cách tiếp cận của Anthropic có thể làm một phần nội bộ Claude trở nên dễ đọc hơn: feature nào có vẻ liên quan, các feature đó được nối với nhau ra sao, và những đường tính toán nào có thể tham gia vào việc tạo câu trả lời . Nó cũng giúp nhà nghiên cứu so sánh hành vi bề mặt với cơ chế bên trong, thay vì chỉ dựa vào kết quả cuối cùng
.
Nhưng chính cách Anthropic mô tả cũng rất thận trọng. Các bài nghiên cứu được trình bày là tiến bộ hướng tới một “kính hiển vi”, và chỉ hé lộ “một phần” đường đi từ từ đầu vào đến từ đầu ra . Vì thế, không nên xem công cụ hiện tại như một bộ giải mã hoàn chỉnh cho mọi phép tính trong Claude, hay như bản ghi đáng tin cậy của tất cả những gì mô hình “nghĩ” bên trong
.
Anthropic đang làm cho cách suy luận ẩn của Claude dễ hiểu hơn bằng cách chuyển một số hoạt động nội bộ thành các feature có thể diễn giải, truy vết cách chúng tương tác trong các circuit, rồi áp dụng bản đồ đó lên những hành vi cụ thể của mô hình . Đây là một bản đồ khoa học còn từng phần về quá trình tính toán của Claude — không phải đọc ý nghĩ toàn diện, cũng chưa phải lời giải thích đầy đủ cho mọi câu trả lời
.
Comments
0 comments