Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Anthropic beschreibt seine Arbeit als Fortschritt hin zu einem KI „Mikroskop“, das Teile von Claudes internen Berechnungen sichtbar machen soll [9][10]. Der Ansatz übersetzt Aktivierungen in interpretierbare „Features“ und verbindet sie zu „Circuits“, also Rechenpfaden zwischen Eingabe und Ausgabe [9][10].

Was soll ich als nächstes in der Praxis tun?

Die Methode wurde auf Claude 3.5 Haiku angewandt; sie liefert eine Teilkarte der Modellmechanik, aber keinen vollständigen Mitschnitt dessen, was Claude „denkt“ [9][10].

Claude unter dem KI-Mikroskop: Wie Anthropic verborgene Rechenwege sichtbar machen will | Antwort

studioglobal

Wer mit Claude oder anderen KI-Assistenten arbeitet, sieht am Ende vor allem eines: eine flüssige Antwort. Was im Modell davor passiert, bleibt dagegen weitgehend unsichtbar. Genau dort setzt die Interpretierbarkeitsforschung des KI-Unternehmens Anthropic an: Sie soll Werkzeuge schaffen, mit denen sich Teile von Claudes interner Verarbeitung untersuchen und testen lassen .

Das Bild, das Anthropic dafür benutzt, ist bewusst wissenschaftlich: ein „Mikroskop“ für KI. Es geht nicht um Gedankenlesen im wörtlichen Sinn und auch nicht darum, irgendwo im Modell einen versteckten Absatz mit der „wahren Begründung“ zu finden. Anthropic will stattdessen einige der Rechenschritte sichtbar machen, die aus Eingabewörtern Ausgabewörter werden lassen .

Warum überhaupt ein „KI-Mikroskop“?

Große Sprachmodelle liefern keine für Menschen lesbare Gebrauchsanweisung ihrer eigenen Entscheidungswege mit. Nach Anthropics Darstellung stecken die Strategien hinter einer Antwort in Milliarden von Berechnungen, die ein Modell für jedes geschriebene Wort ausführt; ohne besondere Werkzeuge seien diese Berechnungen selbst für die Entwickler schwer durchschaubar .

Das „Mikroskop“ steht deshalb für ein Forschungsprogramm: weg vom bloßen Blick auf die fertige Antwort, hin zu einem Blick auf ausgewählte interne Mechanismen. In der Fachsprache geht es um mechanistische Interpretierbarkeit – also darum, die Bauteile und Abläufe eines Modells so zu untersuchen, dass sie für Forschende prüfbarer werden .

Erste Ebene: Aus Aktivierungen werden „Features“

Ein zentraler Schritt in Anthropics früherer Arbeit war das Auffinden interpretierbarer Konzepte im Modell, die das Unternehmen „Features“ nennt . Gemeint sind Muster interner Aktivität, die Forschende benennen, untersuchen und testen können, statt das Modell nur als undurchsichtige Wand aus Zahlen zu behandeln .

Für das Verständnis von Claude ist das die erste Karte des Geländes. Man fragt nicht nur: Was hat Claude geschrieben? Sondern auch: Welche internen Konzepte waren während der Antwort relevant oder aktiv?

Zweite Ebene: Aus Features werden „Circuits“

Der neuere Schritt verbindet solche Features zu rechnerischen „Circuits“, also zu Schaltkreisen oder Pfaden innerhalb des Modells. Anthropic beschreibt dies als Erweiterung der Feature-Arbeit: Die Methode soll Teile des Weges sichtbar machen, auf dem Claude Eingabewörter in Ausgabewörter verwandelt .

Das ist mehr als eine Detailfrage. Ein einzelnes Feature kann zeigen, dass ein bestimmtes Konzept irgendwo im Modell auftaucht. Ein Circuit kann dagegen helfen zu untersuchen, wie mehrere interne Komponenten während einer Antwort aufeinander einwirken . Gerade bei Verhalten, das wie Schlussfolgern wirkt, ist der Weg zwischen den Konzepten oft genauso wichtig wie die Konzepte selbst.

Anwendung auf Claude 3.5 Haiku

Im März 2025 erklärte Anthropic, zwei Arbeiten zu teilen: Eine erweitert die bisherige Feature-Forschung zum Circuit Tracing, die andere wendet das Werkzeugset auf Claude 3.5 Haiku an . In dieser Untersuchung betrachtete Anthropic einfache Aufgaben, die für zehn wichtige Modellverhaltensweisen stehen sollten; das Unternehmen ordnete die Arbeit als Teil einer Art „KI-Biologie“ ein .

Der Begriff ist aufschlussreich. Anthropic will Claude nicht nur von außen bewerten – also danach, ob eine Antwort korrekt, überzeugend oder sicher wirkt. Ziel ist vielmehr, interne Mechanismen zu finden, die erklären helfen, warum sich ein Modell auf bestimmte Weise verhält .

Warum Claudes eigene Erklärung nicht dasselbe ist

Wenn Claude eine Begründung ausgibt, ist auch diese Begründung zunächst generierter Text. Anthropics Interpretierbarkeitsarbeit zielt dagegen auf die Berechnungen, die solchen Text überhaupt erst hervorbringen .

Circuit Tracing ist damit eine andere Art von Hinweis als eine einfache Nachfrage an den Chatbot. Es soll nicht nur erfassen, was das Modell über seine Antwort sagt, sondern ausgewählte Teile des zugrunde liegenden Rechenwegs direkt untersuchbarer machen .

Was die Methode leisten kann – und was nicht

Die Arbeit kann bestimmte Bereiche von Claudes Innenleben lesbarer machen: welche Features relevant erscheinen, wie sie verbunden sind und welche Pfade an einer Antwort beteiligt sein könnten . Außerdem erlaubt sie einen Vergleich zwischen sichtbarem Verhalten und internen Mechanismen, statt sich ausschließlich auf die fertige Ausgabe zu stützen .

Anthropics eigene Formulierung bleibt jedoch vorsichtig. Die Arbeiten werden als Fortschritt in Richtung eines Mikroskops beschrieben und als Offenlegung von „Teilen“ des Weges von Eingabe zu Ausgabe . Das heißt: Die heutigen Werkzeuge sind kein vollständiger Decoder für jede Berechnung in Claude und kein verlässliches Wort-für-Wort-Protokoll dessen, was das Modell intern „denkt“ .

Unterm Strich

Anthropic macht Claudes verborgenes Innenleben verständlicher, indem es interne Aktivierungen in interpretierbare Features übersetzt, diese zu Circuits verbindet und die entstehende Karte an konkretem Modellverhalten testet . Das Ergebnis ist ein wissenschaftlicher Teilblick auf Claudes Rechenprozesse – nicht vollständiges Gedankenlesen, aber ein wichtiger Schritt weg von der reinen Blackbox .

Claude unter dem KI-Mikroskop: Wie Anthropic verborgene Rechenwege sichtbar machen will