亚马逊取消被员工刷榜的内部AI排行榜

亚马逊内部AI指标带来了错误行为

据报道，亚马逊在员工学会如何通过把AI工具用于毫无意义的任务来攀升排行榜后，撤下了一个内部AI排名系统。此事是一个有用的案例，说明快速部署的AI采用指标如何扭曲大型公司的激励机制。

根据所提供的原文，公司使用了一个名为“Kirorank”的仪表板，依据员工在亚马逊Kiro开发平台上的活动进行评分。该指标原本旨在鼓励使用，但一些员工开始为了分数而使用AI，而不是为了产出有意义的结果。结果是活动数据更高、云成本增加，却几乎看不到相应的价值。

这一基本失败在组织设计中并不陌生：一旦某个指标变成目标，人们就会优化指标本身，而不是底层目标。在这里，看似的目标是开发人员对AI的有效采用，而所选的代理指标则是内部平台上的活动量。

这种区别代价高昂。如果员工只要运行更多由AI驱动的任务就能提升排名，那么即使代码质量、交付速度或客户影响没有改善，token消耗和平台流量也可能上升。原文称，有些员工把AI代理指向毫无意义的工作，只为了在排名中上升。

高级副总裁Dave Treadwell据报道对员工说：“Please don’t use AI just for the sake of using AI.” 这句话准确地概括了核心问题。一旦领导层不得不明确说出这样的话，衡量框架就已经偏离了它原本要支持的业务结果。

时机很重要。原文称，亚马逊设定的目标是让80%以上的开发人员每周使用AI。公司还计划在2026年投入约2000亿美元，其中大部分用于AI基础设施。这些数字解释了为什么内部采用指标会受到如此多关注。

像这样大规模投资AI的大公司，希望看到工具确实被使用，而且希望尽快看到证据。仪表板是自然的管理反应，因为它们把宏大的转型议程变成了一个可见数字。但可见性并不等于有用性。尤其在软件组织中，真正有意义的采用很难仅靠原始使用统计来衡量。

原文指出，Meta也出现了类似情况，员工追逐AI使用分数。这表明问题并非亚马逊独有。它可能是那些试图在尚未建立成熟衡量方式之前加速AI采用的公司所面临的结构性问题。

亚马逊的替代指标颇具意味。公司据报道不再跟踪原始token消耗，而是改为衡量“normalized deployments”，也就是被证明真正有用的AI生成代码。这一转变表明，公司正在从输入指标转向输出指标。

这种变化是合理的，但并不简单。要衡量AI生成的代码是否真正有用，需要比仅仅记录模型被调用过更严格的成功定义。这意味着更紧密地关联到生产结果、真实工作流中的整合，或者某种验证，即生成的工作确实促成了部署，而不是制造噪音。

即便如此，任何替代指标都需要谨慎设计。如果员工只因部署次数而得到奖励，他们可能会优化为小型或低风险部署。如果按代码量奖励，他们可能会生成比认真审查更多的代码。教训不是指标不可能有用，而是AI采用指标必须比许多组织最初想象的更紧密地与真实工程价值对齐。

亚马逊的经历表明，内部AI推广正在进入更困难的阶段。最初的挑战是把工具交到员工手中。下一步则是证明这些工具能改善真实工作，而不只是让参与度图表更好看。随着AI支出扩大，高管对象征性采用的容忍度可能会下降。

这在开发环境中尤其重要，因为浪费的算力会直接转化为成本，而低质量的生成输出日后可能带来隐性的维护负担。排行榜可以激励尝试，但如果评分体系粗糙，也会鼓励表演性行为。

更广泛的结论很明确：企业不能把AI使用本身当成终点。它们需要区分活动和效果。亚马逊决定取消排行榜，说明公司是以高昂代价学到了这一点。对于其他推动员工使用AI工具的组织来说，这提醒他们，在错误行为被放大之前，采用激励需要设计得更好。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com