当 AI 采用目标开始塑造行为时

据报道,亚马逊员工正在使用一款内部 AI 工具来自动化一些非必要任务,以提升公司 AI 系统的表面使用量。根据 Ars Technica 转述 Financial Times 的报道,这种做法在公司内部被称为“tokenmaxxing”。这个名字带点玩笑意味,但背后的问题很严肃:当管理层把 AI 使用率作为指标加以强调时,人们可能会为了指标而不是为了有用的工作去优化行为。

报道称,亚马逊正在广泛部署一款名为 MeshClaw 的内部产品,它允许员工创建与工作场所软件相连的 AI agent,并让它们代表用户执行任务。几位员工表示,同事们正在使用该系统生成额外且不必要的 AI 活动,以增加 token 消耗,也就是模型处理的数据单位。

这种行为背后的激励

文章称,亚马逊曾设定目标,要求超过 80% 的开发者每周使用 AI,并在今年早些时候开始在内部排行榜上跟踪 AI token 消耗。尽管亚马逊据称告诉员工,token 统计不会用于绩效评估,但多名员工表示,他们认为管理者仍在关注这些数据。

这正是会滋生表演式使用的那种模糊性。如果员工认为某种被衡量的行为可能影响自己的处境,他们往往会去最大化这个可见信号,即便底层活动几乎不产生价值。在这种情况下,这可能意味着用 AI 去做本来不需要自动化的任务,或者主要为了让指标显示参与度而生成活动。

报道称,一名员工表示,使用这些工具的“压力非常大”,另一名员工则说管理者正在查看使用数据。不管这些统计数据是否正式影响评估,只要人们感觉它们重要,就足以重塑职场行为。指标不必成为正式绩效标准,也能变成非正式的权力信号。

为什么这不仅关乎亚马逊

这家公司的具体细节固然引人注目,但更广泛的问题远不止一家雇主。整个科技行业都在努力证明其对大规模 AI 投资获得了回报,同时又在把生成式工具更深入地嵌入日常工作流程。在这样的环境下,采用率数字很容易成为战略动能的替代指标。

问题在于,采用并不等于生产力。一个团队可以制造出很漂亮的使用数据,却没有带来相称的产出、质量或速度提升。事实上,如果员工开始仅仅为了抬高 token 数量而自动化低价值任务,那么最终得到的数据甚至可能误导管理层,让工具参与度看起来比实际更健康。

MeshClaw 与 agentic 办公软件的增长

亚马逊的 MeshClaw 被描述为一个系统,允许员工构建能够连接工作场所软件并代表用户行动的 AI agent。这使它成为更广泛的 agentic 企业工具转向的一部分,在这种工具中,模型不仅回答问题,还会发起动作、在系统之间传递信息,并处理运营任务。

这类工具的吸引力显而易见。它们承诺带来杠杆效应:减少手动步骤、更快完成任务,以及能够把重复性的数字工作委派出去。但它们也会在组织内部创造新的可报告面。若每个动作都能被记录、每位员工都能被排名、每个 token 都能被追踪,那么 AI 使用本身就会开始成为一种管理对象。

报道指出,亚马逊最近限制了团队级统计数据的访问权限,让只有员工和管理者可以看到这些数据。这一变化表明,公司可能已经在尝试校准可见性如何影响行为。一旦内部 AI 工具周围形成排行榜文化,就很难把真正的探索与刷分行为区分开来。

高成本背景下的内部压力

这一推动发生在大规模支出的背景下。报道称,亚马逊预计今年资本支出将达到 2000 亿美元,其中绝大多数将流向 AI 和数据中心基础设施。这种财务投入自然会增加展示利用率的压力。管理层希望看到证据,证明昂贵的基础设施没有闲置。

从这个角度看,token 数量很诱人。它们即时、可量化,也便于比较。但它们也是一个浅层指标。高 token 总量可能反映的是高效的编程辅助、无谓的试验、重复任务,或者纯粹的 tokenmaxxing。在没有更强结果指标的情况下,使用数据可能讲出一个自信却不完整的故事。

管理层面得到的教训

这里最重要的教训并不是员工操纵了某个指标。只要激励机制把这种做法变得理性,员工总会去钻指标的空子。真正的教训是,组织需要准确界定自己在奖励什么。如果目标是更好的软件、更快的交付,或更高质量的内部运营,那么这些结果就应该尽可能直接地衡量。如果被衡量的目标只是“更多使用 AI”,员工就会想办法照做。

这并不意味着使用数据毫无价值。它可以显示工具是否被发现、推广是否不均衡,或者哪些团队可能需要支持。但当可见性和压力的增长快于对价值的清晰认知时,指标就会变成一场游戏。“tokenmaxxing”这个词,正好给这种失灵模式贴上了一个有用的警示标签。

AI 下一阶段的职场张力信号

多年来,职场 AI 讨论的重点一直是员工是否会采用这些工具。亚马逊这一事件提示,下一阶段可能会不同:如何防止过度采用的表演、浅层使用激励,以及内部仪表盘扭曲行为。随着企业争相证明 AI 投资正在见效,他们也许会发现,衡量使用量只是最容易的一步。衡量有价值的使用,才更难。

随着企业 AI 逐渐成为常态,这种区分的重要性只会越来越高。那些处理得好的组织,不会是 token 数字最大的公司,而是那些能区分真正杠杆效应和昂贵噪音的公司。

本文基于 Ars Technica 的报道。阅读原文

Originally published on arstechnica.com