El punto de partida del trabajo de Anthropic es localizar dentro del modelo patrones de actividad que puedan interpretarse. La compañía los llama “features”, un término que puede entenderse como rasgos, características o conceptos internos .
En la práctica, una “feature” funciona como un punto de agarre: en vez de mirar una masa de números opacos, los investigadores intentan identificar patrones de activación que puedan nombrar, analizar y poner a prueba .
Ese es el primer nivel del mapa. La pregunta deja de ser solo “¿qué respondió Claude?” y pasa a incluir otra: “¿qué conceptos internos parecen haberse activado mientras generaba esa respuesta?” .
El avance más reciente descrito por Anthropic consiste en conectar esas “features” en “circuitos” computacionales. La empresa lo presenta como una extensión de su trabajo previo: pasar de localizar conceptos interpretables dentro del modelo a enlazarlos para revelar partes del recorrido que transforma las palabras de entrada en palabras de salida .
La diferencia es clave. Un concepto aislado puede indicar que cierta idea está presente en algún lugar del modelo. Un circuito, en cambio, ayuda a observar cómo varios componentes internos se influyen entre sí durante la generación de una respuesta . En comportamientos que se parecen al razonamiento, el camino seguido por el modelo puede ser tan importante como los conceptos individuales.
En marzo de 2025, Anthropic dijo que compartía dos trabajos: uno para extender su investigación sobre “features” hacia el trazado de circuitos, y otro para aplicar ese conjunto de herramientas a Claude 3.5 Haiku . En el estudio sobre Claude 3.5 Haiku, la compañía examinó tareas simples representativas de diez comportamientos cruciales del modelo, dentro de lo que describió como una forma de estudiar la “biología de la IA”
.
La expresión “biología de la IA” no significa que Claude sea un organismo. Sirve para explicar el tipo de comprensión que Anthropic busca: no solo evaluar el modelo desde fuera —si acierta, si escribe con fluidez o si responde de forma segura—, sino identificar mecanismos internos que ayuden a explicar por qué se comporta como se comporta .
Una explicación escrita por Claude sigue siendo texto generado por Claude. Puede ser útil para una persona, pero no equivale necesariamente a una lectura directa del proceso interno que produjo la respuesta .
Por eso el trazado de circuitos ofrece otro tipo de evidencia. No es un prompt que pide al modelo justificar su respuesta después del hecho. Es un intento de observar partes del recorrido computacional usando herramientas que traducen actividad neuronal del modelo en estructuras más comprensibles para los investigadores .
Estas herramientas pueden hacer más legibles algunas zonas internas de Claude: qué “features” parecen relevantes, cómo se conectan y qué rutas intervienen aparentemente en la producción de una respuesta . También permiten comparar el comportamiento visible del modelo con posibles mecanismos internos, en lugar de depender únicamente del resultado final
.
Pero la propia formulación de Anthropic es prudente. La compañía habla de avances hacia un microscopio y de revelar “partes” del camino que va de las palabras de entrada a las palabras de salida . Eso significa que las herramientas actuales no deben entenderse como un decodificador completo de cada cálculo de Claude ni como una transcripción fiable de todo lo que el modelo “piensa” internamente
.
Anthropic intenta hacer más comprensible el razonamiento oculto de Claude mediante tres movimientos: traducir algunas activaciones internas en conceptos interpretables, rastrear cómo esos conceptos interactúan en circuitos y aplicar ese mapa a comportamientos concretos del modelo .
El resultado no es lectura mental ni una explicación total de cada respuesta. Es, por ahora, un mapa científico parcial de la computación interna de Claude: una forma de mirar dentro de la caja negra con más detalle que antes, pero todavía lejos de entenderlo todo .
Comments
0 comments