Pour comprendre ce que fait Anthropic avec Claude, il vaut mieux oublier l’image d’une IA qui livrerait soudain son journal intime. Le projet ressemble davantage à la construction d’un instrument scientifique : un ensemble d’outils d’interprétabilité mécaniste destinés à observer certaines opérations internes d’un grand modèle de langage [9][
10].
Autrement dit, Anthropic cherche moins à demander à Claude « explique-moi pourquoi tu as répondu cela » qu’à examiner, autant que possible, les calculs qui ont contribué à produire cette réponse [9][
10].
Pourquoi Claude reste une boîte noire
Les grands modèles de langage, comme Claude, ne produisent pas leurs réponses avec un mode d’emploi lisible par les humains. Anthropic explique que les stratégies d’un modèle sont encodées dans les « milliards de calculs » effectués pour chaque mot généré, et que ces calculs restent opaques même pour les personnes qui développent le modèle, sans outils spécialisés [10].
C’est là qu’intervient la métaphore du « microscope ». Anthropic ne dit pas avoir trouvé une phrase cachée qui contiendrait le vrai raisonnement privé de Claude. L’objectif est plutôt de créer des instruments capables de rendre observables et testables certaines parties du calcul interne qui se déroule sous la réponse écrite .




