新一步係將單一 features 連接起來,追蹤成計算上的「circuits」(迴路)。Anthropic 形容,這是把 feature 層面的可解釋性向前推進,嘗試揭示一部分路徑:輸入 Claude 的字詞,點樣經過內部處理,最後變成輸出的字詞 。
呢個分別好重要。單一 feature 可能只話畀你知:「某個概念喺模型入面出現咗。」但 circuit 更接近問:「呢個概念同其他內部組件點樣互相影響,最後推動模型生成某個回應?」對於似推理的行為,路徑往往同單一概念一樣重要 。
它可以令 Claude 某些內部活動更易讀:哪些 features 似乎有關、這些 features 怎樣連接、哪些路徑似乎參與生成某個回應 。它亦令研究員有機會比較「表面行為」同「內部機制」,而唔係只靠最後輸出的答案作判斷
。
但 Anthropic 自己的講法都相當審慎。佢哋形容這是朝向「顯微鏡」的進展,並強調工具揭示的是由輸入字詞到輸出字詞之間的「部分」路徑 。換句話講,現階段唔應該將它當成 Claude 每一個運算的完整解碼器,更唔係一份可靠逐字記錄,記低模型「心入面所有想法」
。
Comments
0 comments