Die interne KI-Kennzahl von Amazon erzeugte das falsche Verhalten
Amazon hat Berichten zufolge ein internes KI-Rangsystem zurückgezogen, nachdem Mitarbeiter herausgefunden hatten, wie sie die Rangliste erklimmen konnten, indem sie KI-Tools auf sinnlose Aufgaben ansetzten. Der Vorfall ist ein aufschlussreiches Beispiel dafür, wie schnell eingeführte Kennzahlen zur KI-Nutzung Anreize in großen Unternehmen verzerren können.
Laut dem bereitgestellten Quelltext nutzte das Unternehmen ein Dashboard namens „Kirorank“, um Mitarbeiter auf Grundlage ihrer Aktivität auf Amazons Kiro-Entwicklerplattform zu bewerten. Die Kennzahl sollte die Nutzung fördern, doch einige Beschäftigte setzten KI schließlich um der Punktzahl willen ein und nicht für ein sinnvolles Ergebnis. Das Resultat waren höhere Aktivitätszahlen, zusätzliche Cloud-Kosten und kaum Hinweise auf einen entsprechenden Mehrwert.
Wenn Nutzung zum Ziel wird
Das grundlegende Versagen ist aus der Organisationsgestaltung bekannt: Sobald eine Kennzahl zum Ziel wird, optimieren Menschen auf die Kennzahl statt auf das eigentliche Ziel. In diesem Fall war das offensichtliche Ziel eine sinnvolle KI-Nutzung durch Entwickler. Der gewählte Ersatzindikator war Aktivität auf einer internen Plattform.
Diese Unterscheidung erwies sich als teuer. Wenn Mitarbeiter ihre Position einfach dadurch verbessern können, dass sie mehr KI-gestützte Aufgaben ausführen, können Token-Verbrauch und Plattformverkehr steigen, selbst wenn Codequalität, Liefergeschwindigkeit oder Kundennutzen nicht zunehmen. Laut Quelltext setzten einige Beschäftigte KI-Agenten auf bedeutungslose Arbeit an, nur um in der Rangliste aufzusteigen.
Senior Vice President Dave Treadwell soll die Belegschaft mit den Worten aufgefordert haben: „Please don’t use AI just for the sake of using AI.“ Dieser Satz bringt das Kernproblem präzise auf den Punkt. Sobald die Führung so etwas ausdrücklich sagen muss, ist der Messrahmen bereits vom Geschäftsergebnis abgedriftet, das er eigentlich unterstützen sollte.
Der Druck hinter dem Dashboard
Das Timing ist wichtig. Amazon hat sich laut Quelltext das Ziel gesetzt, mehr als 80% seiner Entwickler dazu zu bringen, KI wöchentlich zu nutzen. Außerdem will das Unternehmen 2026 rund 200 Milliarden Dollar ausgeben, überwiegend für KI-Infrastruktur. Diese Zahlen erklären, warum interne Nutzungskennzahlen so viel Aufmerksamkeit erhielten.
Große Unternehmen, die so aggressiv in KI investieren, wollen Belege dafür, dass die Werkzeuge verwendet werden, und sie wollen diese Belege schnell. Dashboards sind eine naheliegende Managementreaktion, weil sie ein breites Transformationsvorhaben in eine sichtbare Zahl übersetzen. Sichtbarkeit ist jedoch nicht dasselbe wie Nützlichkeit. Gerade in Softwareorganisationen ist sinnvolle Nutzung mit bloßen Aktivitätsstatistiken schwer zu erfassen.
Der Quelltext merkt an, dass Meta ein ähnliches Muster gesehen habe, bei dem Mitarbeiter KI-Nutzungswerte verfolgten. Das legt nahe, dass das Problem nicht auf Amazon beschränkt ist. Es könnte strukturell bei Unternehmen sein, die KI-Einführung beschleunigen wollen, bevor sie ausgereifte Methoden haben, um tatsächliche Verbesserungen zu messen.
Von Token-Zahlen zu nützlichen Einsätzen
Die Ersatzkennzahl von Amazon ist aufschlussreich. Statt den reinen Token-Verbrauch zu messen, erfasst das Unternehmen Berichten zufolge jetzt „normalized deployments“, also KI-generierten Code, der sich tatsächlich als nützlich erweist. Dieser Wechsel zeigt eine Abkehr von Input-Metriken hin zu Output-Metriken.
Der Schritt ist vernünftig, aber nicht trivial. Zu messen, ob KI-generierter Code wirklich nützlich ist, erfordert eine stärkere Definition von Erfolg als bloß festzuhalten, dass ein Modell aufgerufen wurde. Das deutet auf eine engere Bindung an Produktionsergebnisse, an die Einbettung in reale Workflows oder an irgendeine Form von Validierung hin, dass die erzeugte Arbeit tatsächlich zu einem Deployment beigetragen hat und nicht nur Lärm erzeugte.
Dennoch braucht auch jede Ersatzkennzahl sorgfältiges Design. Wenn Mitarbeiter nur nach Deployment-Zahlen bewertet werden, optimieren sie womöglich auf kleine oder risikoarme Deployments. Werden sie nach Codeumfang belohnt, erzeugen sie möglicherweise mehr, als sie gründlich prüfen. Die Lehre ist nicht, dass Kennzahlen unmöglich sind. Sie lautet, dass KI-Nutzungskennzahlen enger an den tatsächlichen technischen Wert gekoppelt sein müssen, als viele Organisationen zunächst annehmen.
Warum das für Enterprise-KI wichtig ist
Die Erfahrung von Amazon zeigt, dass interne KI-Rollouts in eine härtere Phase eintreten. Die anfängliche Herausforderung bestand darin, Werkzeuge in die Hände der Mitarbeiter zu bringen. Die nächste Aufgabe ist zu beweisen, dass diese Werkzeuge die reale Arbeit verbessern und nicht nur die Engagement-Charts aufblähen. Mit steigenden KI-Ausgaben dürfte die Toleranz der Führung für symbolische Nutzung sinken.
Das ist besonders wichtig in Entwicklungsumgebungen, in denen verschwendete Rechenleistung direkt Kosten verursacht und minderwertig generierter Output später versteckte Wartungslasten nach sich ziehen kann. Eine Rangliste kann zum Experimentieren anspornen, aber sie kann bei grobem Scoring auch zu vorzeigbarem Verhalten verleiten.
Die größere Lehre ist einfach: Unternehmen dürfen KI-Nutzung nicht als Endzustand betrachten. Sie müssen zwischen Aktivität und Wirksamkeit unterscheiden. Amazons Entscheidung, die Rangliste abzuschaffen, deutet darauf hin, dass das Unternehmen diese Lektion auf teure Weise gelernt hat. Für andere Organisationen, die ihre Mitarbeiter zu KI-Tools drängen, ist das eine Warnung, dass Einführungsprogramme bessere Anreize brauchen, bevor sie das falsche Verhalten skalieren.
Dieser Artikel basiert auf einer Berichterstattung von The Decoder. Den Originalartikel lesen.
Originally published on the-decoder.com


