より新しい一歩は、個々の特徴量を「回路(circuits)」として結びつけることだ。Anthropicは、従来の特徴量レベルの分析を拡張し、Claudeに入力された言葉が出力される言葉へ変わっていく経路の一部を明らかにする試みだと説明している 。
この違いは重要だ。単独の特徴量を見るだけでは、ある概念がモデル内部に現れたことは分かっても、それがほかの内部要素とどう関わり、最終的な回答にどう影響したのかまでは見えにくい。回路をたどることで、複数の内部部品が応答中にどう影響し合うのかを調べられる可能性がある 。
推論らしい振る舞いを理解するには、「どの概念があったか」だけでなく、「それらがどの順序・関係で使われたか」が大切になる。
Anthropicは2025年3月、2本の論文を共有したと説明している。1本は特徴量の研究を回路トレーシングへ広げるもの、もう1本はその道具立てをClaude 3.5 Haikuに適用するものだった 。
Claude 3.5 Haikuを対象にした研究では、重要な10種類のモデル行動を代表する単純なタスクを詳しく調べたとされる。Anthropicはこの方向性を「AI biology」、つまりAIの生物学のような研究として位置づけている 。
もちろん、これはAIが生物だという意味ではない。外から「答えが正しいか」「自然な文章か」「安全そうか」を評価するだけでなく、モデルがなぜそのように振る舞うのかを説明する内部メカニズムを探ろうとしている、という比喩だ 。
Claudeに「理由を説明して」と頼めば、もっともらしい説明文は返ってくる。しかしそれもまた、モデルが生成したテキストである。Anthropicの解釈可能性研究が見ようとしているのは、そのテキストを作るもとになった内部計算の側だ 。
そのため、回路トレーシングは単なるプロンプト上の自己説明とは違う種類の証拠になる。モデルに自分の推論を語らせるのではなく、ニューラルネットワーク内の活動を、より人間が読める構造へ翻訳しながら、計算経路の一部を直接調べようとする手法だからだ 。
ただし、Anthropicの説明は慎重だ。同社はこれを「顕微鏡」の開発に向けた進歩であり、入力から出力へ至る経路の「一部」を明らかにするものとしている 。したがって、現時点の道具をClaude内部のすべての計算を読み解く完全な解読機や、モデルが内側で「考えたこと」を逐語的に記録する装置として受け取るべきではない
。
Anthropicは、Claudeの隠れた推論をより理解しやすくするために、内部の活性化を解釈可能な「特徴量」に変換し、それらがどう相互作用するかを「回路」としてたどり、具体的なモデル行動にその地図を当てはめようとしている 。
Comments
0 comments