AntwortenVeröffentlichtvor 2 MonatenLast edited letzten Monat23 Quellen

Warum Googles KI ihren eigenen Namen nicht buchstabieren kann – und warum das so bleibt

Googles KI Überblick macht grundlegende Rechtschreibfehler, weil große Sprachmodelle (LLMs) Wörter als 'Token' – ganze Textblöcke – verarbeiten und die einzelnen Buchstaben nie zu Gesicht bekommen. Nachdem Nutzer entdeckten, dass die KI Buchstaben in 'Google', 'poop' und 'journalism' falsch zählte, räumte Google ein...

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

Google AI Overview spelling errors explained: why LLMs fail at basic letter counting — What explains why Google's AI Overview makes basic spelling errors—such as claiming there are two Ps in "Google" or misspelling "journalism"Google's AI Overview confidently miscounts letters because of fundamental tokenization limitations in large language models.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: What explains why Google's AI Overview makes basic spelling errors—such as claiming there are two Ps in "Google" or misspelling "journalism". Article summary: Your diagnosis is essentially correct. Here is the full explanation, sourced to both the news reports and the AI research literature.. Topic tags: general, general web, user generated, academic. Reference image context from search candidates: Reference image 1: visual subject "# Google's AI Overview still can't spell, and the internet is very aware of it. A phone shows AI Overviews getting a spelling question wrong. Google's AI tools remain abysmal at an" source context "Google's AI Overview still can't spell, and the internet is very aware of it" Reference image 2: visual subject "# Google's AI Overview still can't spell, and the internet is very aware of it.
openai.com

Ende Mai 2026 machten Nutzer eine ebenso amüsante wie entlarvende Entdeckung: Googles KI-Überblick, die generative Suchfunktion, die das Unternehmen als Zukunft seines Flaggschiffs positioniert, machte Buchstabierfehler, die die meisten Menschen mit sechs Jahren ablegen. Auf die Frage „Wie viele 'p' hat das Wort Google?“ antwortete die KI selbstbewusst mit „zwei“ (es gibt nur eines). Ebenso behauptete sie, das Wort „journalism“ (Journalismus) enthalte zwei 'd' und buchstabierte es im selben Atemzug als „j-o-u-r-n-a-d-i-s-m“ .

Google räumte die Fehler einen Tag später ein und erklärte in einer Stellungnahme: „Das Zählen innerhalb von Wörtern ist eine bekannte Herausforderung für LLMs, und wir arbeiten daran, dieses spezielle Problem zu beheben“ .

Dabei handelt es sich nicht um zufällige Aussetzer. Sie sind eine vorhersehbare Konsequenz daraus, wie jedes große Sprachmodell Text verarbeitet – und sie offenbaren einen blinden Fleck, der so schnell nicht verschwinden wird.

Das Tokenisierungs-Problem: Warum LLMs keine Buchstaben lesen

Menschen nehmen Wörter als Abfolgen einzelner Buchstaben wahr. Ein LLM tut etwas grundlegend anderes: Es zerlegt Text in Token – Blöcke, die ganze Wörter, Wortbestandteile oder gelegentlich Einzelbuchstaben sein können. Welche Token entstehen, hängt von einem vordefinierten Vokabular ab, das ein Algorithmus wie Byte Pair Encoding (BPE) erstellt hat .

Das Wort „Google“ wird vielleicht als ein einzelner Token kodiert, etwa ["Google"], oder als zwei Token wie


["Go", "ogle"]

– je nach Vokabular des Tokenisierers. Was es nie wird, ist eine Aufschlüsselung in


["G", "o", "o", "g", "l", "e"]

. Das Modell hat schlicht keine native Repräsentation der einzelnen Buchstaben innerhalb des Tokens.

Daraus entstehen zwei sich verstärkende Probleme:

Erstens bildet die Embedding-Schicht Zeicheninformationen nicht vollständig ab. Die Forschung zeigt, dass LLM-Embedding-Schichten starke Zeicheninformationen nur für den ersten Buchstaben jedes Tokens speichern; darüber hinaus nimmt die Detailtreue rapide ab . Wenn ein Modell Buchstaben in einem Token zählen muss, rekonstruiert es die Zeichenabfolge aus einer Repräsentation, die nie dafür gedacht war, diese zu erhalten. Spätere Transformer-Schichten kompensieren dies teilweise – Forscher beobachteten einen „Durchbruch“, bei dem das Modell einen Token korrekt buchstabiert –, aber der Prozess ist unzuverlässig und fragil .

Zweitens sind Subwort-Tokenisierer „der internen Struktur von Token weitgehend ahnungslos ausgeliefert“. Eine Studie von Arxiv aus dem Jahr 2024 prägte den Begriff „der Fluch der Tokenisierung“, um diese Verwundbarkeit zu beschreiben: Tokenisierer sind inhärent empfindlich für Tippfehler und Längenvariationen und blind für die interne Zusammensetzung der Token selbst . Ein Wort wie „journalism“ mag ein einzelner Token sein – das Modell lernte nie, es in j-o-u-r-n-a-l-i-s-m zu zerlegen. Wird es also aufgefordert, es zu buchstabieren, rät es.

Das Ergebnis ist, was Nutzer bei Googles KI-Überblick sahen: Eine KI, die über Philosophie diskutieren und Code schreiben kann, behauptet steif und fest, das Wort „Google“ habe zwei 'p' und „poop“ enthalte genau ein 'r' .

Warum die Lösung schwieriger ist, als sie klingt

Wenn das Problem die Tokenisierung ist, liegt die intuitive Lösung in zeichen- oder byte-basierten Modellen. Man lasse das Modell jeden Buchstaben sehen. Solche Ansätze existieren – Modelle wie ByT5 operieren direkt auf rohen Bytes –, aber sie haben sich nicht durchgesetzt, weil sie den Rechenaufwand drastisch in die Höhe treiben .

Der Umstieg auf reine Zeichenverarbeitung verlängert die Sequenzlängen schätzungsweise um das Drei- bis Fünffache, erhöht die Rechenkosten proportional und erschwert es dem Modell erheblich, weitreichende Abhängigkeiten und semantische Beziehungen zu lernen . Subwort-Tokenisierer sind der Effizienz-Kompromiss, der moderne LLMs erst praktikabel machte: Sie komprimieren Text auf handhabbare Vokabulargrößen und erhalten dabei genug Bedeutung für flüssige Sprachgenerierung.

Forscher sind sich weitgehend einig, dass ein „perfekter“ Tokenisierer wahrscheinlich nicht existiert . Tokenisierer „produzieren routinemäßig nicht-eindeutige Kodierungen“ und erzeugen „Repräsentations-Differenzen“, die zutiefst architektonischer Natur sind – kein simpler Bug, den man schnell patchen könnte . Der Zielkonflikt zwischen Zeichenpräzision und semantischer Flüssigkeit scheint fundamental für die Transformer-Architektur zu sein.

Was diese Fehler über LLMs verraten

Die Rechtschreib-Pannen legen strukturelle Schwächen offen, die weit über Googles KI-Überblick hinaus gelten.

LLMs sind Mustererkenner, keine Symbolmanipulierer. Buchstaben zu zählen ist eine triviale algorithmische Aufgabe für jeden Computer, der traditionellen Code ausführt. Aber LLMs führen keine Algorithmen aus – sie sagen das nächstwahrscheinliche Token auf Basis statistischer Muster in ihren Trainingsdaten voraus . Fragt man nach einer Buchstabenzahl, erzeugt das Modell eine plausibel klingende Antwort aus gelernten Assoziationen, keine Zähloperation.

Selbstbewusstsein hat nichts mit Korrektheit zu tun. Die KI bot die „Zwei“ mit perfekter grammatikalischer Flüssigkeit an und lag doch objektiv falsch. Dies ist ein Markenzeichen von LLM-Halluzination: selbstsichere, plausibel klingende Ergebnisse ohne eingebaute Verifikationsmechanismen. Google selbst räumte bereits 2024 ein: Obwohl KI-Überblicke „nur Informationen zeigen sollen, die durch Top-Web-Ergebnisse gestützt werden“, können sie dennoch Suchanfragen oder sprachliche Nuancen fehlinterpretieren .

Der blinde Fleck ist architektonisch, nicht zufällig. Jedes führende LLM mit Subwort-Tokenisierung – einschließlich der Modelle von OpenAI, Anthropic und Meta – zeigt ähnliche Schwächen bei Aufgaben auf Zeichenebene, etwa beim Rückwärtsbuchstabieren, Buchstaben-Zählen oder dem Umgang mit Anagrammen . Größere Modelle helfen ein wenig, aber die Verzerrung bleibt bestehen .

Warum die Branche das nicht als dringend behandelt

Solche Fehler mögen peinlich wirken – eine KI, die nicht einmal den Namen des eigenen Unternehmens buchstabieren kann –, aber die Branche sieht darin keine Krise. Der enorme Nutzen von LLMs liegt schlicht woanders.

Flüssige Texterzeugung, Zusammenfassung, logisches Schlussfolgern, Übersetzung, Code-Generierung – all diese Fähigkeiten beruhen darauf, dass Modelle auf der semantischen Ebene arbeiten, wo Token-Abstraktion ein Gewinn und kein Makel ist . Zeichengenauigkeit ist einfach nicht das, worauf diese Architekturen optimiert sind.

Der praktische Workaround besteht darin, Rechtschreib- und Zählfragen an traditionelle, regelbasierte Systeme weiterzuleiten, statt das LLM damit zu befassen. Mehrere Implementierungen von KI-Überblicken versuchen bereits, solche Anfragen zu erkennen und umzuleiten – auch wenn die prominenten Fehler vom Mai 2026 zeigen, dass die Erkennung selbst noch unvollkommen ist . Eine separate Studie ergab, dass Googles KI-Überblicke bei Rückwärts-Buchstabierungsfragen in 52 % der Fälle falsch liegen – und nur 10 % der Wörter mit drei oder mehr Silben wurden korrekt zurückbuchstabiert .

Google arbeitet an Korrekturen für die konkreten Zählprobleme, die öffentlich wurden . Doch für jeden, der den Tokenisierungs-Kompromiss versteht, liegt die eigentliche Lehre nicht darin, dass Google ein fehlerhaftes Produkt ausgeliefert hat. Sie liegt darin, dass die Architektur, die die KI-Revolution antreibt, einen fundamentalen blinden Fleck besitzt – und niemand einen Weg gefunden hat, ihn zu beseitigen, ohne genau das zu opfern, was LLMs überhaupt erst wertvoll macht.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Warum Googles KI ihren eigenen Namen nicht buchstabieren kann – und warum das so bleibt“?

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Eine Umstellung auf Zeichenebene würde Modelle drei bis fünfmal langsamer machen.

Quellen

← Back to Trending