亚马逊内部AI指标带来了错误行为
据报道,亚马逊在员工学会如何通过把AI工具用于毫无意义的任务来攀升排行榜后,撤下了一个内部AI排名系统。此事是一个有用的案例,说明快速部署的AI采用指标如何扭曲大型公司的激励机制。
根据所提供的原文,公司使用了一个名为“Kirorank”的仪表板,依据员工在亚马逊Kiro开发平台上的活动进行评分。该指标原本旨在鼓励使用,但一些员工开始为了分数而使用AI,而不是为了产出有意义的结果。结果是活动数据更高、云成本增加,却几乎看不到相应的价值。
当使用本身变成目标
这一基本失败在组织设计中并不陌生:一旦某个指标变成目标,人们就会优化指标本身,而不是底层目标。在这里,看似的目标是开发人员对AI的有效采用,而所选的代理指标则是内部平台上的活动量。
这种区别代价高昂。如果员工只要运行更多由AI驱动的任务就能提升排名,那么即使代码质量、交付速度或客户影响没有改善,token消耗和平台流量也可能上升。原文称,有些员工把AI代理指向毫无意义的工作,只为了在排名中上升。
高级副总裁Dave Treadwell据报道对员工说:“Please don’t use AI just for the sake of using AI.” 这句话准确地概括了核心问题。一旦领导层不得不明确说出这样的话,衡量框架就已经偏离了它原本要支持的业务结果。
仪表板背后的压力
时机很重要。原文称,亚马逊设定的目标是让80%以上的开发人员每周使用AI。公司还计划在2026年投入约2000亿美元,其中大部分用于AI基础设施。这些数字解释了为什么内部采用指标会受到如此多关注。
像这样大规模投资AI的大公司,希望看到工具确实被使用,而且希望尽快看到证据。仪表板是自然的管理反应,因为它们把宏大的转型议程变成了一个可见数字。但可见性并不等于有用性。尤其在软件组织中,真正有意义的采用很难仅靠原始使用统计来衡量。
原文指出,Meta也出现了类似情况,员工追逐AI使用分数。这表明问题并非亚马逊独有。它可能是那些试图在尚未建立成熟衡量方式之前加速AI采用的公司所面临的结构性问题。
从token计数到有用部署
亚马逊的替代指标颇具意味。公司据报道不再跟踪原始token消耗,而是改为衡量“normalized deployments”,也就是被证明真正有用的AI生成代码。这一转变表明,公司正在从输入指标转向输出指标。
这种变化是合理的,但并不简单。要衡量AI生成的代码是否真正有用,需要比仅仅记录模型被调用过更严格的成功定义。这意味着更紧密地关联到生产结果、真实工作流中的整合,或者某种验证,即生成的工作确实促成了部署,而不是制造噪音。
即便如此,任何替代指标都需要谨慎设计。如果员工只因部署次数而得到奖励,他们可能会优化为小型或低风险部署。如果按代码量奖励,他们可能会生成比认真审查更多的代码。教训不是指标不可能有用,而是AI采用指标必须比许多组织最初想象的更紧密地与真实工程价值对齐。
这对企业AI意味着什么
亚马逊的经历表明,内部AI推广正在进入更困难的阶段。最初的挑战是把工具交到员工手中。下一步则是证明这些工具能改善真实工作,而不只是让参与度图表更好看。随着AI支出扩大,高管对象征性采用的容忍度可能会下降。
这在开发环境中尤其重要,因为浪费的算力会直接转化为成本,而低质量的生成输出日后可能带来隐性的维护负担。排行榜可以激励尝试,但如果评分体系粗糙,也会鼓励表演性行为。
更广泛的结论很明确:企业不能把AI使用本身当成终点。它们需要区分活动和效果。亚马逊决定取消排行榜,说明公司是以高昂代价学到了这一点。对于其他推动员工使用AI工具的组织来说,这提醒他们,在错误行为被放大之前,采用激励需要设计得更好。
本文基于 The Decoder 的报道。阅读原文。
Originally published on the-decoder.com

