MeshClaw wird als Amazon-internes KI-Produkt beschrieben, mit dem Mitarbeitende eigene KI-Agenten erstellen können. Diese Agenten sollen sich mit Arbeitsplatzsoftware verbinden und Aufgaben im Namen der Nutzerinnen und Nutzer ausführen können . Damit geht es nicht nur um einen Chatbot, der Text formuliert. Der entscheidende Punkt ist die Handlungsfähigkeit: Ein Agent kann, je nach angebundener Software, Schritte in Arbeitsabläufen übernehmen.
Genau deshalb ist die Messung solcher Tools heikel. Solange ein KI-System nur Texte ausgibt, ist die Nutzung relativ leicht als Hilfsmittel zu verstehen. Wenn Agenten jedoch in Arbeitssoftware handeln, wird Aktivität sichtbarer, zählbarer — und für Management-Dashboards verführerisch.
Der Kern der Berichte ist einfach: Einige Amazon-Beschäftigte sollen MeshClaw oder verwandte interne KI-Werkzeuge für Aufgaben verwenden, die eigentlich keine KI benötigen — etwa Routinearbeiten, Kleinigkeiten oder nicht wesentliche Tätigkeiten . Retail Gazette berichtete unter Berufung auf die Financial Times, Beschäftigte hätten gesagt, Kolleginnen und Kollegen erzeugten mit MeshClaw unnötige KI-Aktivität, um den Token-Verbrauch zu erhöhen
. Times Now beschrieb ähnlich, Mitarbeitende nutzten Bots teils auch dann, wenn sie sie nicht brauchten, um gegenüber Vorgesetzten mehr KI-Aktivität zu signalisieren
.
Das ist der entscheidende Unterschied: Es geht nicht nur darum, KI für schwierigere Probleme einzusetzen. Ein Teil der berichteten Nutzung entsteht offenbar, weil KI-Nutzung selbst sichtbar geworden ist.
Ein Token ist eine Verarbeitungseinheit, die ein KI-Modell in Eingaben und Ausgaben verarbeitet. In den Amazon-Berichten wird Token-Verbrauch als Menge der vom Modell verarbeiteten Daten beschrieben . Ein Erklärstück verweist auf OpenAIs grobe Faustregel, wonach ein Token etwa vier Zeichen entspricht; in der Praxis hängt die Tokenisierung aber vom Modell und von der Sprache ab
.
Token-Verbrauch ist leicht zu zählen. Produktivität ist es nicht. Genau in dieser Lücke entsteht „Tokenmaxxing“: der Versuch, möglichst viele KI-Tokens zu verbrauchen, weil diese Zahl zu einem sichtbaren Signal für KI-Adoption, Status oder vermeintliche Produktivität wird .
Eine Zusammenfassung der Financial-Times-Berichterstattung nennt etwa ein Ziel, wonach mehr als 80 % der Entwicklerinnen und Entwickler bei Amazon wöchentlich KI nutzen sollten; zugleich sei die Nutzung über Ranglisten sichtbar gemacht worden, die den Token-Verbrauch zeigten . Ein weiterer Bericht beschreibt starken Druck auf Beschäftigte, hohe KI-Nutzung vorzuweisen, nachdem Amazon Ziele gesetzt und die Nutzung der Technologie gemessen habe
. Amazon soll erklärt haben, Token-Statistiken würden nicht für Leistungsbeurteilungen verwendet; die Sorge der Beschäftigten war jedoch, dass Führungskräfte die Zahlen trotzdem sehen und als Signal werten könnten
.
Das ist ein klassisches Kennzahlenproblem. Wird aus einer Messgröße ein Ziel, verändert sich das Verhalten. Computing UK ordnet Tokenmaxxing als Versuch ein, möglichst viele KI-Tokens zu verbrauchen, um KI-Nutzung zu demonstrieren, und warnt vor Goodharts Gesetz: Wenn eine Kennzahl zum Ziel wird, verliert sie ihre Aussagekraft als Kennzahl .
Die Amazon-Berichte stehen nicht allein. Ähnliche Dynamiken wurden zuvor auch aus anderen Tech-Unternehmen beschrieben, etwa von Meta. Dort soll ein Ingenieur eine interne Token-Rangliste erstellt haben, die Beschäftigte nach Token-Verbrauch einstufte und Statuslabels wie „Session Immortal“ oder „Token Legend“ vergab . Andere Zusammenfassungen beschrieben eine Meta-Rangliste namens „Claudeonomics“, die Beschäftigte nach verarbeiteten und erzeugten Tokens sortierte
.
Gizmodo berichtete unter Berufung auf eine Kolumne der New York Times, Beschäftigte bei Unternehmen wie Meta und OpenAI hätten auf internen Ranglisten darum konkurriert, wer die meisten Tokens verbrauche; bei Meta und Shopify sei das Volumen der KI-Nutzung demnach auch in Bewertungen eingeflossen .
Der wichtige Vergleich lautet nicht, dass jedes Unternehmen dasselbe System nutzt. Entscheidend ist der gleiche Anreiz: Sobald rohe KI-Nutzung als Statussignal oder Management-Indikator gilt, können Beschäftigte auf Nutzungsvolumen optimieren — statt auf bessere Ergebnisse.
Token-Verbrauch zeigt, dass ein Modell genutzt wurde. Er zeigt nicht, ob die Antwort korrekt war, ob die Aufgabe wichtig war oder ob tatsächlich Zeit gespart wurde. Mehrere Einordnungen warnen, dass tokenbasierte Kennzahlen Volumen statt Wert belohnen und Leistungsbewertungen verzerren können .
Wenn Mitarbeitende zusätzliche Modellaufrufe erzeugen, nur um die Kennzahl zu erhöhen, entstehen Kosten ohne klaren Geschäftsnutzen. Retail Gazette berichtete, Beschäftigte sollen unnötige KI-Aktivität erzeugt haben, um ihren Token-Verbrauch zu steigern . Breitere Kommentare zu Tokenmaxxing warnen ebenfalls vor verschwenderischen Modellaufrufen und steigenden Cloud-Kosten, wenn Token-Nutzung selbst zum Ziel wird
.
Amazon soll gesagt haben, Token-Statistiken würden nicht in Performance Reviews verwendet . Das löst das Anreizproblem aber nicht vollständig, wenn Beschäftigte glauben, dass Vorgesetzte Dashboards trotzdem sehen oder niedrige Nutzung als mangelnde Beteiligung an der KI-Offensive deuten könnten. Der berichtete Druck entsteht also weniger durch die formale Regel als durch das informelle Signal: Viel KI-Nutzung kann wie Engagement wirken, wenig Nutzung wie Rückstand
.
Die vorliegenden Quellen belegen keinen konkreten Sicherheitsvorfall mit MeshClaw. Das Risiko ist struktureller Natur: MeshClaw wird als Werkzeug beschrieben, mit dem Agenten an Arbeitsplatzsoftware angebunden werden und Aufgaben im Namen von Nutzenden ausführen können . Sobald ein KI-Agent handeln kann, stellen sich Fragen nach Berechtigungen, menschlicher Freigabe, Protokollierung und Verantwortlichkeit, falls der Agent etwas Falsches tut. Separate Berichte über agentische KI weisen darauf hin, dass autonome Agenten die zugrunde liegende Recheninfrastruktur und Sicherheitssysteme zusätzlich unter Druck setzen
.
Token-Daten sind nicht nutzlos. Sie können helfen, Kosten sichtbar zu machen, Kapazitäten zu planen, interne Verrechnung zu organisieren oder ungewöhnliche Nutzung zu erkennen. Problematisch wird es, wenn Token-Verbrauch zur Hauptkennzahl für Produktivität oder Einsatzbereitschaft wird. Eine Einordnung der Debatte beschreibt genau diesen Zielkonflikt: Token-Metriken können Kostenkontrolle erleichtern, aber zugleich soziale Anreize erzeugen, die nicht zu besseren Produkten oder Ergebnissen führen .
Bessere Fragen wären zum Beispiel:
Die MeshClaw-Berichte sind keine Geschichte darüber, dass KI am Arbeitsplatz nutzlos wäre. Sie sind eine Warnung vor schlecht gesetzten Anreizen. Die Frage „Wie viel KI wurde genutzt?“ ist schwächer als die Frage „Was hat KI verbessert?“
Wenn Ranglisten und Ziele vor allem Token-Verbrauch belohnen, werden Menschen Wege finden, Tokens zu verbrauchen. Das kann ein Dashboard besser aussehen lassen. Ob dadurch die Arbeit besser wird, ist eine ganz andere Frage.
Comments
0 comments