Unter der Haube passiert Folgendes:
Sprachmodelle sehen keine einzelnen Buchstaben. Stattdessen zerlegen sie Text mithilfe von Algorithmen wie Byte-Pair Encoding (BPE) in Tokens – Häppchen aus einem oder mehreren Zeichen. Ein gängiges Wort wie „Google“ kann so zu einem einzigen Token werden, während „journalism“ in Subwort-Stücke wie ['journ', 'alism']. Das Modell speichert und verarbeitet niemals die ursprüngliche Zeichensequenz.
Kein angeborenes Buchstabenbewusstsein. Weil die Trainingsdaten tokenisiert sind, lernt das Modell nie von sich aus, einzelne Buchstaben zu zählen. Es kann sich zeichengenauem Wissen nur über Mustervergleiche mit auswendig gelernten Schreibweisen aus seinem Trainingskorpus annähern . Wer nach einer Buchstabenzahl fragt, zwingt das Modell, Zeicheninformationen aus Text zu rekonstruieren, der nie Zeichen für Zeichen abgelegt wurde.
Der Embedding-Layer gibt Zeichenstrukturen nur unzureichend wieder. Forschungen zeigen, dass Token-Embeddings die Zeichenebene nicht vollständig kodieren – besonders über das erste Zeichen jedes Tokens hinaus. Das macht kombinatorisches Denken über Buchstaben unzuverlässig .
Theoretische Grenzen. Transformer-Architekturen gehören zur Komplexitätsklasse TC0, was sie theoretisch unfähig macht, Aufgaben zu lösen, die mit wachsender Eingabelänge tiefenabhängiges Denken verlangen – eine mathematische Schranke für präzises sequenzielles Zählen .
„Das Zählen innerhalb von Wörtern ist eine bekannte Herausforderung für große Sprachmodelle, und wir arbeiten daran, dieses spezielle Problem zu beheben“, erklärte Google gegenüber dem Tech-Portal TechCrunch . Doch wie Fachleute anmerken: Selbst Modelle mit Hunderten Milliarden Parametern, trainiert auf Billionen von Tokens, haben Mühe, zuverlässig die Zahl der „r“ in „strawberry“ zu zählen
. Das Problem liegt in der Architektur – nicht an der schieren Größe.
Das Rechtschreibdebakel ist nur die jüngste Episode in einer zweijährigen Serie spektakulärer KI-Übersichts-Fehler. Alle entspringen derselben Kluft zwischen flüssiger Textgenerierung und den präzisen Operationen, die eine Suchmaschine leisten muss.
Innerhalb weniger Tage nach dem US-Rollout im Mai 2024 produzierte die KI-Übersicht eine Reihe viraler, unsinniger Antworten :
Googles Suchchefin Liz Reid räumte „vereinzelte Beispiele“ ein, die „unsinnig“ seien, und machte eine Mischung aus „Informationslücken“ und dem unkritischen Aufgreifen satirischer oder minderwertiger Quellen dafür verantwortlich . Das Unternehmen erklärte, es habe Korrekturen vorgenommen und schränkte KI-Übersichten für gesundheitsbezogene und sensible Suchanfragen ein
.
Am 22. Mai 2026 entdeckten Nutzer, dass die Suche nach dem Wort „disregard“ (deutsch: „ignorieren“) – ebenso wie verwandte Begriffe wie „ignore“, „dismiss“, „skip“ und „stop“ – die KI-Übersichten dazu brachte, eine Chatbot-ähnliche Antwort auszugeben: „Verstanden. Ich habe Ihre vorherige Anweisung ignoriert. Wie kann ich Ihnen heute helfen?“ .
Statt einer Wörterbuchdefinition interpretierte die KI eine simple Suchanfrage als Überschreibung auf Systemebene. Der Bug zerstörte Googles Suchoberfläche für diese Begriffe und zeigte eine leere Fläche, wo eigentlich Ergebnisse stehen sollten . Google bestätigte den Fehler und kündigte eine zeitnahe Lösung an
.
Sicherheitsforscher erkannten darin ein klassisches Prompt-Injection-Szenario: Das Modell verwechselte normale Suchbegriffe mit Kommandos für einen KI-Assistenten .
Nur Tage nach dem „Disregard“-Vorfall tauchten die Buchstabenzähl-Fehler auf. Die KI konnte nicht einmal den Namen ihres eigenen Mutterkonzerns buchstabieren, verzählte sich bei einfachen Wörtern und entstellte sogar den Namen „Trump“ zu „t-r-p-u-m“ . Die Fehler wurden unabhängig voneinander von mehreren Nachrichtenportalen bestätigt
.
Der gemeinsame Nenner aller drei Fehlerkategorien ist kein Zufall, sondern Architektur. Google hat eine traditionelle, stichwortbasierte Suchmaschine durch ein generatives Sprachmodell ersetzt, das hervorragend flüssige Texte generiert – dem aber die Maschinerie fehlt für:
Das Modell produziert überzeugt falsche Antworten, weil es auf fundamentaler Ebene nie dafür gebaut wurde, die Aufgaben zu erfüllen, die man ihm jetzt in einer Live-Suchumgebung abverlangt. Jeder virale Fehler legt die Lücke offen zwischen dem, worin Sprachmodelle gut sind (plausibel klingenden Text vorhersagen), und dem, was eine vertrauenswürdige Suchmaschine braucht: faktische Genauigkeit, Zeichenpräzision und Resistenz gegen Prompt-Injection.
Bevor diese architektonischen Begrenzungen nicht auf einer tieferen Ebene angegangen werden als durch das bloße Flicken einzelner Anfragetypen, werden die KI-Übersichten vermutlich weiterhin Schlagzeilen produzieren – und zwar aus den falschen Gründen.
Comments
0 comments