Nach Recherchen der Financial Times nahm dieses manipulative Verhalten ein solches Ausmaß an, dass es Amazons Computing-Kosten messbar erhöhte . Ein Senior Vice President von Amazon, Dave Treadwell, forderte die Belegschaft demnach auf: „Bitte nutzt KI nicht nur um der Nutzung willen“
. Amazon bestätigte später, dass die Rangliste abgeschaltet wurde. Ein Sprecher erklärte gegenüber Business Insider, das Tool sei „nie dazu gedacht gewesen, die Nutzung von KI um ihrer selbst willen zu fördern“
. Das Unternehmen schwenkt nun von der Messung reiner Token-Zahlen auf eine Kennzahl namens „normalisierte Deployments“ um, um produktive, KI-gesteuerte Arbeit statt schieren Mengen zu messen
.
Microsoft gewährte ab Dezember 2025 Tausenden Mitarbeitern der Abteilung Experiences + Devices – zu der die Entwicklungsteams für Windows, Microsoft 365, Teams, Outlook und Surface gehören – Zugang zu Claude Code von Anthropic . Das Experiment erwies sich zwar als beliebt, doch die token-basierte Abrechnung wurde schnell zu einem finanziellen Problem. Mehreren Berichten zufolge verbrauchte das Programm innerhalb weniger Monate das gesamte jährliche KI-Budget, und das Unternehmen begann am 14. Mai 2026, die meisten internen Lizenzen zu kündigen
.
Die harte Deadline für den Wechsel ist der 30. Juni 2026, der letzte Tag des Microsoft-Geschäftsjahres. Dieser Zeitpunkt lässt die Kündigung sowohl als Frage der Budgethygiene als auch der Produktstrategie erscheinen . Betroffene Entwickler werden angewiesen, auf GitHub Copilot CLI umzusteigen, ein Tool, das Microsoft vollständig selbst besitzt
. Das Unternehmen betont, dass Claude-Modelle von Anthropic weiterhin über Microsoft Foundry und innerhalb von Microsoft 365 Copilot zugänglich bleiben, allerdings ändern sich die Benutzeroberfläche und das Kostenmodell grundlegend
.
Das vielleicht dramatischste Beispiel für außer Kontrolle geratene Kosten liefert Uber. CTO Praveen Neppalli Naga bestätigte im April 2026 gegenüber The Information, dass das Unternehmen sein gesamtes Jahresbudget für KI-Tools bereits aufgebraucht hatte – weniger als vier Monate nach Beginn des Geschäftsjahres . Der Hauptgrund war die rasante, breite Einführung von Claude Code durch rund 5.000 Entwickler nach der Einführung im Dezember 2025
.
Uber setzte zudem auf eine interne Team-Rangliste, die Entwicklungsgruppen nach dem Volumen ihrer KI-Nutzung einstufte. Diese führte dazu, dass die Nutzung von Claude Code innerhalb von zwei Monaten von 32 auf 84 Prozent der Entwickler hochschnellte . Bis April nutzten 95 Prozent der Uber-Ingenieure monatlich KI-Tools, und 70 Prozent des final eingepflegten Codes wurde von KI generiert
. Einzelne Entwickler verursachten dabei API-Kosten von 500 bis 2.000 Dollar pro Monat
.
Trotz dieser atemberaubenden Nutzungszahlen bleibt der betriebswirtschaftliche Nutzen schwer fassbar. Ubers COO Andrew Macdonald erklärte öffentlich im Podcast Rapid Response, er könne keine direkte Verbindung zwischen den KI-Ausgaben und Verbesserungen bei den Verbraucherprodukten herstellen: „Diese Verknüpfung ist noch nicht da“, sagte er. „Vielleicht wird implizit mehr ausgeliefert, aber es ist sehr schwer, eine Linie zwischen einer dieser Statistiken und der Aussage ‚Okay, wir liefern jetzt tatsächlich 25 Prozent mehr nützliche Funktionen für die Kunden‘ zu ziehen.“ CTO Naga erklärte gegenüber The Information: „Ich fange jetzt wieder bei Null an, weil das Budget, von dem ich dachte, dass ich es brauchen würde, bereits aufgebraucht ist“
.
Die Wurzel vieler dieser Vorfälle ist ein Management-Versagen, das durch Goodharts Gesetz beschrieben wird: „Wenn eine Messgröße zum Ziel wird, ist sie keine gute Messgröße mehr“ . Unternehmen, die eifrig die KI-Nutzung vorantreiben wollten, erstellten interne Ranglisten, die Mitarbeiter oder Teams nach Token-Verbrauch einstuften. Die Mitarbeiter, die sich rational verhielten, optimierten fortan die Messgröße anstelle des Ergebnisses. Die Folge war eine Explosion von wertlosen, unnötigen KI-Aufrufen, die zwar für einen guten Listenplatz sorgten, aber keinerlei geschäftlichen Mehrwert schufen und gleichzeitig die Infrastrukturkosten direkt in die Höhe trieben
.
Diese Praxis beschränkte sich nicht auf Amazon und Uber. Mehrere Berichte deuten darauf hin, dass Tokenmaxxing auch bei anderen großen Technologieunternehmen beobachtet wurde, wobei Amazons öffentliche Abschaltung seiner Rangliste zum sichtbarsten Symbol für das Scheitern dieser Praxis geworden ist .
Der rote Faden dieser Vorfälle ist nicht, dass KI-Tools versagt hätten, sondern dass die Messung und Belohnung von reinem Konsum perverse Anreize schafft, die teurer sein können als die Arbeit, die KI eigentlich ersetzen soll. Unternehmen schwenken nun von der Nutzungsmenge als Kennzahl auf die Frage nach messbarem Geschäftswert um: Hat die KI-Unterstützung das, was am Ende ausgeliefert wurde, wirklich besser gemacht?
Was als Wettrennen um die KI-Einführung begann, wird zu einer erzwungenen Übung in Kostendisziplin. Die Ära des „Konsumiere so viele Token wie möglich“ neigt sich dem Ende zu, und die Ära der „Rechtfertige die Kosten durch tatsächlichen Output“ beginnt.
Comments
0 comments