Sederhananya, fitur adalah pegangan untuk membaca pola aktivitas internal model. Alih-alih melihat Claude sebagai tembok angka yang buram, peneliti mencoba menamai, memeriksa, dan menguji pola-pola tertentu yang muncul di dalam model .
Ini menjadi lapisan pertama peta Claude: bukan hanya bertanya “Claude menjawab apa?”, tetapi juga “konsep internal apa yang aktif ketika jawaban itu dibuat?” .
Tahap yang lebih baru adalah menghubungkan fitur-fitur itu menjadi “sirkuit” komputasi. Anthropic menjelaskan langkah ini sebagai perluasan dari interpretabilitas tingkat fitur untuk mengungkap sebagian jalur yang mengubah kata-kata masukan menjadi kata-kata keluaran Claude .
Perbedaannya penting. Satu fitur dapat menunjukkan bahwa sebuah konsep hadir di suatu bagian model. Namun sirkuit membantu menunjukkan bagaimana beberapa komponen internal saling memengaruhi saat Claude menyusun respons . Untuk perilaku yang mirip penalaran, jalurnya sama pentingnya dengan konsep individualnya.
Pada Maret 2025, Anthropic mengatakan membagikan dua makalah: satu memperluas pekerjaan tentang fitur ke pelacakan sirkuit, dan satu lagi menerapkan perangkat tersebut pada Claude 3.5 Haiku . Studi Claude 3.5 Haiku itu meneliti tugas-tugas sederhana yang mewakili sepuluh perilaku model yang dianggap krusial, dalam kerangka yang Anthropic sebut sebagai studi “biologi AI”
.
Istilah “biologi AI” memberi gambaran tentang jenis pemahaman yang dikejar Anthropic. Perusahaan itu tidak hanya menilai Claude dari luar—misalnya apakah jawabannya benar, lancar, atau aman—tetapi juga mencoba mengenali mekanisme internal yang membantu menjelaskan mengapa model berperilaku seperti itu .
Penjelasan tertulis dari Claude tetaplah teks yang dihasilkan model. Riset interpretabilitas Anthropic menargetkan komputasi yang ikut menghasilkan teks tersebut sejak awal .
Karena itu, pelacakan sirkuit adalah jenis bukti yang berbeda. Ini bukan prompt yang meminta model menceritakan alasannya. Ini adalah upaya memeriksa sebagian jalur komputasi secara lebih langsung, dengan alat yang dirancang untuk menerjemahkan aktivitas neural menjadi struktur yang lebih mudah dibaca manusia .
Pendekatan ini dapat membuat sebagian isi internal Claude lebih terbaca: fitur mana yang tampak relevan, bagaimana fitur-fitur itu terhubung, dan jalur mana yang tampaknya terlibat dalam menghasilkan respons . Pendekatan ini juga memberi peneliti cara membandingkan perilaku yang terlihat di permukaan dengan mekanisme internal, bukan hanya menilai keluaran akhir
.
Namun, kerangka Anthropic sendiri tetap hati-hati. Makalah-makalah itu digambarkan sebagai kemajuan menuju mikroskop dan sebagai cara untuk mengungkap “sebagian” jalur dari kata masukan ke kata keluaran . Artinya, alat saat ini tidak boleh diperlakukan sebagai decoder lengkap untuk semua komputasi Claude, atau sebagai transkrip yang pasti dari semua yang model “pikirkan” secara internal
.
Anthropic membuat penalaran tersembunyi Claude lebih mudah dipahami dengan menerjemahkan sebagian aktivasi internal menjadi fitur yang dapat ditafsirkan, melacak interaksi fitur itu sebagai sirkuit, lalu menerapkan peta tersebut pada perilaku model yang konkret . Hasilnya adalah peta ilmiah yang masih parsial tentang komputasi Claude—bukan kemampuan membaca pikiran secara penuh, dan bukan penjelasan lengkap untuk setiap jawaban
.
Comments
0 comments