Anfang 2026 überprüfte METR das Studiendesign und passte es an unterschiedliche Aufgabenschwierigkeiten an. Die revidierte Analyse ergab eine moderate Beschleunigung von 6 % über die gesamte Stichprobe, jedoch mit extremer Streuung: Einige Entwickler wurden bei bestimmten Aufgaben um bis zu 25 % schneller, andere blieben netto langsamer. Die Kernaussage blieb bestehen: Der Nutzen von KI ist stark aufgabenabhängig, und subjektiv eingeschätzte Geschwindigkeit ist keine verlässliche Messgröße.
Sind die Zahlen zur Bearbeitungszeit schon unpräzise, so zeichnen die Daten zur Code-Qualität ein klareres Bild. Der wegweisende Bericht „State of AI vs Human Code Generation“ von CodeRabbit analysierte 470 reale GitHub-Pull-Requests – 320 davon mit KI-Beteiligung, 150 rein menschlich – aus Open-Source-Projekten.
Das Ergebnis ist ernüchternd: KI-generierte Pull-Requests enthielten im Schnitt ~1,7-mal mehr Probleme (Issues) als von Menschen geschriebener Code (10,83 Issues pro PR vs. 6,45). Der Qualitätsmangel beschränkte sich nicht auf stilistische Fragen. Er konzentrierte sich auf Bereiche, die echte Zwischenfälle verursachen:
Die Analyse von CodeRabbit identifizierte zudem einen „längeren Review-Schwanz“ für KI-verfassten Code. Das bedeutet, dass menschliche Reviewer unverhältnismäßig viel Zeit damit verbrachten, Probleme in KI-generierten Änderungen zu finden und zu diagnostizieren. Oder wie die Autoren des Berichts es formulieren: Menschen und KI machen die gleichen Fehler – die KI macht sie nur häufiger und in größerem Umfang.
Dieses Muster deckt sich mit der allgemeineren Beobachtung von CodeRabbit, dass das Jahr 2025 von KI-Geschwindigkeit geprägt war, das Jahr 2026 jedoch zum Jahr der KI-Qualität werden müsse. Postmortems und betriebliche Vorfälle ließen sich zunehmend auf subtile Logikfehler, Konfigurationsversehen und Missverständnisse im Design zurückführen, die durch KI-Assistenten eingeführt wurden.
Das Qualitätsdefizit schlägt sich direkt in finanziellem Abfall nieder. Die Entwickler-Produktivitätsplattform Entelligence.AI fasste Daten von 2.444 Unternehmen zusammen und erstellte eine Aufschlüsselung, die durch Engineering-Abteilungen hallt:
| Wohin das Geld fließt | Kosten pro 1 € KI-Token-Ausgaben |
|---|---|
| Behebung von KI-verursachten Fehlern | 0,44 € |
| Nacharbeit | 0,27 € |
| Review-Reibung | 0,11 € |
| Tatsächlicher Nutzerwert (Produktion) | 0,18 € |
Mit anderen Worten: 82 Cent jedes ausgegebenen KI-Token-Euros entfallen auf Bugs, Nacharbeit und Review-Overhead. Nur 18 Cent stiften einen echten Mehrwert für die Endnutzer. Diese Kosten sind nicht bloß theoretisch. Uber verbrauchte sein gesamtes KI-Coding-Budget für 2026 innerhalb von vier Monaten und verzeichnete keinerlei messbaren Produktivitätsgewinn. Ein namentlich nicht genannter Uber-Manager erklärte unverblümt, die Verbindung zwischen KI-Ausgaben und Produktverbesserung „existiere noch nicht“.
Eine ergänzende Studie von Stanford und MIT ergab, dass KI-Agenten zur Fehlerbehebung über eine Million Tokens pro Aufgabe verbrauchen können – etwa das 1000-Fache des Token-Verbrauchs von Standard-Code-Q&A-Aufgaben. Die wirtschaftliche Rechnung legt nahe, dass für viele Unternehmen die Folgekosten der KI-Einführung die versprochenen Produktivitätsgewinne derzeit wieder auffressen.
Der vielleicht psychologisch verblüffendste Befund ist, dass Entwickler, die diese Daten kennen, sich dennoch weigern, ohne KI zu arbeiten. Mehrere Medien berichteten, dass sich Teilnehmer der METR-Studie gegen die Rückkehr zum Programmieren ohne Hilfsmittel sträubten, selbst nachdem man ihnen ihre eigenen Verlangsamungswerte gezeigt hatte. Dies wurde als „KI-Abhängigkeitsparadoxon“ beschrieben – sobald Entwickler sich an KI-Unterstützung gewöhnt haben, verlieren sie das Vertrauen in ihre Fähigkeit, ohne Hilfe zu coden – selbst wenn das Werkzeug sie nachweislich ausbremst.
Ein Entwickler brachte es auf den Punkt: KI „erledigt die langweiligen Teile – Boilerplate, Syntax, die Dinge, die sich wie Arbeit anfühlen, aber nicht die eigentliche Schwierigkeit ausmachen.“ Das Werkzeug lässt das Coden schneller anfühlen, selbst wenn die Stoppuhr etwas anderes sagt, weil sich die Reibung vom Schreiben erster Entwürfe hin zu akribischen Reviews verlagert.
Aus den kontrollierten Studien von METR, der Pull-Request-Analyse von CodeRabbit und den Unternehmensdaten von Entelligence.AI kristallisiert sich eine Reihe konsistenter Empfehlungen heraus:
Die sich verdichtende Evidenz legt nicht nahe, dass KI-Coding-Tools nutzlos sind. In bestimmten Kontexten – Einarbeitung in unbekannte Codebasen, Generierung von Boilerplate oder Aufgaben, bei denen Entwickler einen erheblichen Nutzen vorhersagten – zeigen sich messbare Beschleunigungen. Aber im weiteren Querschnitt erfahrener Entwickler, die an ihren eigenen, ausgereiften Codebasen arbeiten, war der Netto-Effekt von Mitte 2025 bis 2026 langsamere Auslieferungen, mehr Fehler und eine Abhängigkeit, die den Daten trotzt.
Comments
0 comments