쉽게 말해 특징은 거대한 숫자 배열로만 보이던 내부 신호에 붙이는 손잡이입니다. 연구자가 이름을 붙이고, 언제 켜지는지 보고, 실제로 어떤 역할을 하는지 테스트할 수 있게 만드는 단위에 가깝습니다 .
이 단계의 의미는 분명합니다. Claude가 최종적으로 무슨 문장을 썼는지만 보는 것이 아니라, 그 문장을 만드는 동안 내부에서 어떤 개념들이 활성화됐는지를 추적하려는 것입니다 .
앤트로픽이 2025년 3월 공개한 연구의 다음 단계는 이 특징들을 계산 ‘회로’로 연결하는 것입니다. 회사는 기존의 특징 탐색 작업을 확장해, Claude에 들어간 단어가 출력 단어로 바뀌는 경로의 일부를 드러내려 한다고 설명했습니다 .
하나의 특징은 ‘어떤 개념이 모델 안에 나타났다’는 신호를 줄 수 있습니다. 하지만 회로는 여러 특징과 내부 구성요소가 응답 생성 중에 어떻게 서로 영향을 주고받는지 보려는 시도입니다 .
추론처럼 보이는 행동을 이해하려면 개별 개념만으로는 부족합니다. 어떤 개념이 먼저 작동했고, 무엇이 다음 계산을 밀어붙였으며, 어떤 경로를 거쳐 출력으로 이어졌는지가 함께 중요하기 때문입니다.
앤트로픽은 2025년 3월 두 편의 논문을 공유했다고 밝혔습니다. 하나는 특징 연구를 회로 추적으로 확장한 논문이고, 다른 하나는 Claude 3.5 Haiku 내부를 분석한 논문입니다 .
Claude 3.5 Haiku 연구에서는 중요한 모델 행동 10가지를 대표하는 간단한 과제들을 깊게 들여다봤다고 앤트로픽은 설명했습니다. 회사는 이 작업을 ‘AI 생물학’을 보는 시도라고 표현했습니다 .
여기서 ‘생물학’은 모델을 생명체처럼 과장해 말하려는 표현이라기보다, 겉으로 드러난 정답률이나 문장 품질만 평가하는 데서 한 걸음 더 들어가 내부 메커니즘을 관찰하겠다는 비유로 읽는 편이 자연스럽습니다.
중요한 차이가 있습니다. Claude에게 ‘왜 그렇게 답했니?’라고 묻는 방식은 결국 Claude가 다시 생성한 텍스트를 받는 일입니다. 반면 앤트로픽의 해석가능성 연구는 그 텍스트를 만들어낸 밑단의 계산을 대상으로 합니다 .
이 접근은 Claude 내부를 조금 더 읽기 쉽게 만들 수 있습니다. 어떤 특징이 관련 있어 보이는지, 그 특징들이 어떻게 연결되는지, 어떤 경로가 특정 응답 생성에 관여하는지를 비교할 수 있기 때문입니다 .
하지만 한계도 분명합니다. 앤트로픽의 표현 자체가 조심스럽습니다. 이 연구는 ‘현미경’ 개발을 향한 진전이며, 입력 단어가 출력 단어로 바뀌는 경로의 ‘일부’를 드러내는 작업으로 설명됩니다 .
즉 현재의 도구를 Claude 내부 모든 계산을 해독하는 완성된 디코더로 보기는 어렵습니다. 또한 모델이 내부에서 ‘생각한 모든 것’을 사람이 읽을 수 있는 대본처럼 제공한다고 이해해서도 안 됩니다 .
Comments
0 comments