Das Wort „Google“ wird vielleicht als ein einzelner Token kodiert, etwa ["Google"], oder als zwei Token wie ["Go", "ogle"]["G", "o", "o", "g", "l", "e"]
Daraus entstehen zwei sich verstärkende Probleme:
Erstens bildet die Embedding-Schicht Zeicheninformationen nicht vollständig ab. Die Forschung zeigt, dass LLM-Embedding-Schichten starke Zeicheninformationen nur für den ersten Buchstaben jedes Tokens speichern; darüber hinaus nimmt die Detailtreue rapide ab . Wenn ein Modell Buchstaben in einem Token zählen muss, rekonstruiert es die Zeichenabfolge aus einer Repräsentation, die nie dafür gedacht war, diese zu erhalten. Spätere Transformer-Schichten kompensieren dies teilweise – Forscher beobachteten einen „Durchbruch“, bei dem das Modell einen Token korrekt buchstabiert –, aber der Prozess ist unzuverlässig und fragil
.
Zweitens sind Subwort-Tokenisierer „der internen Struktur von Token weitgehend ahnungslos ausgeliefert“. Eine Studie von Arxiv aus dem Jahr 2024 prägte den Begriff „der Fluch der Tokenisierung“, um diese Verwundbarkeit zu beschreiben: Tokenisierer sind inhärent empfindlich für Tippfehler und Längenvariationen und blind für die interne Zusammensetzung der Token selbst . Ein Wort wie „journalism“ mag ein einzelner Token sein – das Modell lernte nie, es in
j-o-u-r-n-a-l-i-s-m zu zerlegen. Wird es also aufgefordert, es zu buchstabieren, rät es.
Das Ergebnis ist, was Nutzer bei Googles KI-Überblick sahen: Eine KI, die über Philosophie diskutieren und Code schreiben kann, behauptet steif und fest, das Wort „Google“ habe zwei 'p' und „poop“ enthalte genau ein 'r' .
Wenn das Problem die Tokenisierung ist, liegt die intuitive Lösung in zeichen- oder byte-basierten Modellen. Man lasse das Modell jeden Buchstaben sehen. Solche Ansätze existieren – Modelle wie ByT5 operieren direkt auf rohen Bytes –, aber sie haben sich nicht durchgesetzt, weil sie den Rechenaufwand drastisch in die Höhe treiben .
Der Umstieg auf reine Zeichenverarbeitung verlängert die Sequenzlängen schätzungsweise um das Drei- bis Fünffache, erhöht die Rechenkosten proportional und erschwert es dem Modell erheblich, weitreichende Abhängigkeiten und semantische Beziehungen zu lernen . Subwort-Tokenisierer sind der Effizienz-Kompromiss, der moderne LLMs erst praktikabel machte: Sie komprimieren Text auf handhabbare Vokabulargrößen und erhalten dabei genug Bedeutung für flüssige Sprachgenerierung.
Forscher sind sich weitgehend einig, dass ein „perfekter“ Tokenisierer wahrscheinlich nicht existiert . Tokenisierer „produzieren routinemäßig nicht-eindeutige Kodierungen“ und erzeugen „Repräsentations-Differenzen“, die zutiefst architektonischer Natur sind – kein simpler Bug, den man schnell patchen könnte
. Der Zielkonflikt zwischen Zeichenpräzision und semantischer Flüssigkeit scheint fundamental für die Transformer-Architektur zu sein.
Die Rechtschreib-Pannen legen strukturelle Schwächen offen, die weit über Googles KI-Überblick hinaus gelten.
LLMs sind Mustererkenner, keine Symbolmanipulierer. Buchstaben zu zählen ist eine triviale algorithmische Aufgabe für jeden Computer, der traditionellen Code ausführt. Aber LLMs führen keine Algorithmen aus – sie sagen das nächstwahrscheinliche Token auf Basis statistischer Muster in ihren Trainingsdaten voraus . Fragt man nach einer Buchstabenzahl, erzeugt das Modell eine plausibel klingende Antwort aus gelernten Assoziationen, keine Zähloperation.
Selbstbewusstsein hat nichts mit Korrektheit zu tun. Die KI bot die „Zwei“ mit perfekter grammatikalischer Flüssigkeit an und lag doch objektiv falsch. Dies ist ein Markenzeichen von LLM-Halluzination: selbstsichere, plausibel klingende Ergebnisse ohne eingebaute Verifikationsmechanismen. Google selbst räumte bereits 2024 ein: Obwohl KI-Überblicke „nur Informationen zeigen sollen, die durch Top-Web-Ergebnisse gestützt werden“, können sie dennoch Suchanfragen oder sprachliche Nuancen fehlinterpretieren .
Der blinde Fleck ist architektonisch, nicht zufällig. Jedes führende LLM mit Subwort-Tokenisierung – einschließlich der Modelle von OpenAI, Anthropic und Meta – zeigt ähnliche Schwächen bei Aufgaben auf Zeichenebene, etwa beim Rückwärtsbuchstabieren, Buchstaben-Zählen oder dem Umgang mit Anagrammen . Größere Modelle helfen ein wenig, aber die Verzerrung bleibt bestehen
.
Solche Fehler mögen peinlich wirken – eine KI, die nicht einmal den Namen des eigenen Unternehmens buchstabieren kann –, aber die Branche sieht darin keine Krise. Der enorme Nutzen von LLMs liegt schlicht woanders.
Flüssige Texterzeugung, Zusammenfassung, logisches Schlussfolgern, Übersetzung, Code-Generierung – all diese Fähigkeiten beruhen darauf, dass Modelle auf der semantischen Ebene arbeiten, wo Token-Abstraktion ein Gewinn und kein Makel ist . Zeichengenauigkeit ist einfach nicht das, worauf diese Architekturen optimiert sind.
Der praktische Workaround besteht darin, Rechtschreib- und Zählfragen an traditionelle, regelbasierte Systeme weiterzuleiten, statt das LLM damit zu befassen. Mehrere Implementierungen von KI-Überblicken versuchen bereits, solche Anfragen zu erkennen und umzuleiten – auch wenn die prominenten Fehler vom Mai 2026 zeigen, dass die Erkennung selbst noch unvollkommen ist . Eine separate Studie ergab, dass Googles KI-Überblicke bei Rückwärts-Buchstabierungsfragen in 52 % der Fälle falsch liegen – und nur 10 % der Wörter mit drei oder mehr Silben wurden korrekt zurückbuchstabiert
.
Google arbeitet an Korrekturen für die konkreten Zählprobleme, die öffentlich wurden . Doch für jeden, der den Tokenisierungs-Kompromiss versteht, liegt die eigentliche Lehre nicht darin, dass Google ein fehlerhaftes Produkt ausgeliefert hat. Sie liegt darin, dass die Architektur, die die KI-Revolution antreibt, einen fundamentalen blinden Fleck besitzt – und niemand einen Weg gefunden hat, ihn zu beseitigen, ohne genau das zu opfern, was LLMs überhaupt erst wertvoll macht.
Comments
0 comments