Ein zentraler Schritt in Anthropics früherer Arbeit war das Auffinden interpretierbarer Konzepte im Modell, die das Unternehmen „Features“ nennt . Gemeint sind Muster interner Aktivität, die Forschende benennen, untersuchen und testen können, statt das Modell nur als undurchsichtige Wand aus Zahlen zu behandeln
.
Für das Verständnis von Claude ist das die erste Karte des Geländes. Man fragt nicht nur: Was hat Claude geschrieben? Sondern auch: Welche internen Konzepte waren während der Antwort relevant oder aktiv?
Der neuere Schritt verbindet solche Features zu rechnerischen „Circuits“, also zu Schaltkreisen oder Pfaden innerhalb des Modells. Anthropic beschreibt dies als Erweiterung der Feature-Arbeit: Die Methode soll Teile des Weges sichtbar machen, auf dem Claude Eingabewörter in Ausgabewörter verwandelt .
Das ist mehr als eine Detailfrage. Ein einzelnes Feature kann zeigen, dass ein bestimmtes Konzept irgendwo im Modell auftaucht. Ein Circuit kann dagegen helfen zu untersuchen, wie mehrere interne Komponenten während einer Antwort aufeinander einwirken . Gerade bei Verhalten, das wie Schlussfolgern wirkt, ist der Weg zwischen den Konzepten oft genauso wichtig wie die Konzepte selbst.
Im März 2025 erklärte Anthropic, zwei Arbeiten zu teilen: Eine erweitert die bisherige Feature-Forschung zum Circuit Tracing, die andere wendet das Werkzeugset auf Claude 3.5 Haiku an . In dieser Untersuchung betrachtete Anthropic einfache Aufgaben, die für zehn wichtige Modellverhaltensweisen stehen sollten; das Unternehmen ordnete die Arbeit als Teil einer Art „KI-Biologie“ ein
.
Der Begriff ist aufschlussreich. Anthropic will Claude nicht nur von außen bewerten – also danach, ob eine Antwort korrekt, überzeugend oder sicher wirkt. Ziel ist vielmehr, interne Mechanismen zu finden, die erklären helfen, warum sich ein Modell auf bestimmte Weise verhält .
Wenn Claude eine Begründung ausgibt, ist auch diese Begründung zunächst generierter Text. Anthropics Interpretierbarkeitsarbeit zielt dagegen auf die Berechnungen, die solchen Text überhaupt erst hervorbringen .
Circuit Tracing ist damit eine andere Art von Hinweis als eine einfache Nachfrage an den Chatbot. Es soll nicht nur erfassen, was das Modell über seine Antwort sagt, sondern ausgewählte Teile des zugrunde liegenden Rechenwegs direkt untersuchbarer machen .
Die Arbeit kann bestimmte Bereiche von Claudes Innenleben lesbarer machen: welche Features relevant erscheinen, wie sie verbunden sind und welche Pfade an einer Antwort beteiligt sein könnten . Außerdem erlaubt sie einen Vergleich zwischen sichtbarem Verhalten und internen Mechanismen, statt sich ausschließlich auf die fertige Ausgabe zu stützen
.
Anthropics eigene Formulierung bleibt jedoch vorsichtig. Die Arbeiten werden als Fortschritt in Richtung eines Mikroskops beschrieben und als Offenlegung von „Teilen“ des Weges von Eingabe zu Ausgabe . Das heißt: Die heutigen Werkzeuge sind kein vollständiger Decoder für jede Berechnung in Claude und kein verlässliches Wort-für-Wort-Protokoll dessen, was das Modell intern „denkt“
.
Anthropic macht Claudes verborgenes Innenleben verständlicher, indem es interne Aktivierungen in interpretierbare Features übersetzt, diese zu Circuits verbindet und die entstehende Karte an konkretem Modellverhalten testet . Das Ergebnis ist ein wissenschaftlicher Teilblick auf Claudes Rechenprozesse – nicht vollständiges Gedankenlesen, aber ein wichtiger Schritt weg von der reinen Blackbox
.
Comments
0 comments