Ранние работы Anthropic по интерпретируемости были сосредоточены на поиске внутри модели интерпретируемых концептов — компания называет их «признаками» или features .
Проще говоря, признак — это не отдельная мысль в человеческом смысле, а узнаваемый паттерн внутренней активности модели. Если такой паттерн можно назвать, изучить и проверить, исследователи получают зацепку вместо сплошной стены непрозрачных чисел .
Так появляется первый слой карты: важно не только то, что Claude написал в ответе, но и какие внутренние концепты активировались, пока модель этот ответ генерировала .
Следующий шаг Anthropic — связывать отдельные признаки в вычислительные «цепи» или circuits. Компания описывает это как расширение работы с признаками: теперь исследователи пытаются увидеть части пути, по которому входные слова преобразуются в слова ответа Claude .
Это важное различие. Один признак может показать, что где-то внутри модели проявился определённый концепт. Но цепь помогает понять, как несколько внутренних компонентов влияют друг на друга во время генерации ответа . Для поведения, похожего на рассуждение, важны не только отдельные понятия, но и маршрут, по которому они взаимодействуют.
В марте 2025 года Anthropic сообщила о двух работах: одна развивает подход от поиска признаков к трассировке цепей, другая применяет этот инструментарий к Claude 3.5 Haiku . В исследовании Claude 3.5 Haiku компания рассматривала простые задачи, представляющие десять важных типов поведения модели, и описывала это направление как изучение «биологии ИИ»
.
Формулировка «биология ИИ» здесь показательна. Anthropic хочет не только оценивать модель снаружи — например, по тому, правильный, связный или безопасный ответ она дала. Цель — находить внутренние механизмы, которые помогают объяснить, почему модель ведёт себя именно так .
Текстовое объяснение Claude остаётся ещё одним сгенерированным текстом. Оно может быть полезным для пользователя, но само по себе не доказывает, что модель действительно пришла к ответу именно таким путём.
Интерпретируемость, которой занимается Anthropic, нацелена на другой уровень: на вычисления, которые помогают произвести этот текст . Трассировка цепей — это не промпт с просьбой «объясни ход рассуждений», а попытка напрямую исследовать части вычислительного маршрута с помощью инструментов, переводящих нейронную активность в более читаемые структуры
.
Такие инструменты могут сделать часть внутренней работы Claude более разборчивой: какие признаки выглядят релевантными, как они связаны между собой и какие пути, вероятно, участвуют в формировании ответа . Это даёт исследователям возможность сопоставлять внешнее поведение модели с внутренними механизмами, а не полагаться только на финальный текст
.
Но рамки подхода важны не меньше, чем его возможности. Anthropic описывает эти результаты как прогресс в сторону «микроскопа» и как раскрытие лишь частей пути от входных слов к выходным . Поэтому нынешние методы не стоит воспринимать как полный декодер всех вычислений Claude или как достоверную стенограмму всего, что модель якобы «думает» внутри
.
Anthropic делает скрытую работу Claude понятнее, переводя часть внутренних активаций в интерпретируемые признаки, отслеживая связи между ними как вычислительные цепи и проверяя эту карту на конкретных типах поведения модели .
Итог — не магическое чтение мыслей и не полное объяснение каждого ответа, а частичная научная карта вычислений Claude. Именно в этом и состоит ценность подхода: он осторожно сдвигает разговор об ИИ от впечатлений по готовому тексту к проверяемому изучению того, что происходит внутри модели .
Comments
0 comments