亚马逊的“Tokenmaxxing”揭示了用使用量衡量 AI 采用的风险

当 AI 采用目标开始塑造行为时

据报道，亚马逊员工正在使用一款内部 AI 工具来自动化一些非必要任务，以提升公司 AI 系统的表面使用量。根据 Ars Technica 转述 Financial Times 的报道，这种做法在公司内部被称为“tokenmaxxing”。这个名字带点玩笑意味，但背后的问题很严肃：当管理层把 AI 使用率作为指标加以强调时，人们可能会为了指标而不是为了有用的工作去优化行为。

报道称，亚马逊正在广泛部署一款名为 MeshClaw 的内部产品，它允许员工创建与工作场所软件相连的 AI agent，并让它们代表用户执行任务。几位员工表示，同事们正在使用该系统生成额外且不必要的 AI 活动，以增加 token 消耗，也就是模型处理的数据单位。

这种行为背后的激励

文章称，亚马逊曾设定目标，要求超过 80% 的开发者每周使用 AI，并在今年早些时候开始在内部排行榜上跟踪 AI token 消耗。尽管亚马逊据称告诉员工，token 统计不会用于绩效评估，但多名员工表示，他们认为管理者仍在关注这些数据。

这正是会滋生表演式使用的那种模糊性。如果员工认为某种被衡量的行为可能影响自己的处境，他们往往会去最大化这个可见信号，即便底层活动几乎不产生价值。在这种情况下，这可能意味着用 AI 去做本来不需要自动化的任务，或者主要为了让指标显示参与度而生成活动。

报道称，一名员工表示，使用这些工具的“压力非常大”，另一名员工则说管理者正在查看使用数据。不管这些统计数据是否正式影响评估，只要人们感觉它们重要，就足以重塑职场行为。指标不必成为正式绩效标准，也能变成非正式的权力信号。

Truth Social将向顶级账号出售实时API访问

Trump Media表示，将于8月1日推出付费Truth Social API，为客户提供顶级账号帖文的毫秒级送达以及可追溯至2022年的存档访问。

Read article

为什么这不仅关乎亚马逊

这家公司的具体细节固然引人注目，但更广泛的问题远不止一家雇主。整个科技行业都在努力证明其对大规模 AI 投资获得了回报，同时又在把生成式工具更深入地嵌入日常工作流程。在这样的环境下，采用率数字很容易成为战略动能的替代指标。

问题在于，采用并不等于生产力。一个团队可以制造出很漂亮的使用数据，却没有带来相称的产出、质量或速度提升。事实上，如果员工开始仅仅为了抬高 token 数量而自动化低价值任务，那么最终得到的数据甚至可能误导管理层，让工具参与度看起来比实际更健康。

MeshClaw 与 agentic 办公软件的增长

亚马逊的 MeshClaw 被描述为一个系统，允许员工构建能够连接工作场所软件并代表用户行动的 AI agent。这使它成为更广泛的 agentic 企业工具转向的一部分，在这种工具中，模型不仅回答问题，还会发起动作、在系统之间传递信息，并处理运营任务。

这类工具的吸引力显而易见。它们承诺带来杠杆效应：减少手动步骤、更快完成任务，以及能够把重复性的数字工作委派出去。但它们也会在组织内部创造新的可报告面。若每个动作都能被记录、每位员工都能被排名、每个 token 都能被追踪，那么 AI 使用本身就会开始成为一种管理对象。

报道指出，亚马逊最近限制了团队级统计数据的访问权限，让只有员工和管理者可以看到这些数据。这一变化表明，公司可能已经在尝试校准可见性如何影响行为。一旦内部 AI 工具周围形成排行榜文化，就很难把真正的探索与刷分行为区分开来。

Night sky reveals Milky Way above Turkiye’s Yozgat forest

OMB 资助提案引发太空科学倡导者强烈反弹

一项拟议中的联邦资助规则引发了异常大量的公众回应，并遭到太空政策倡导者警告，他们认为这可能重塑美国科学的资助与共享方式。

Read article

高成本背景下的内部压力

这一推动发生在大规模支出的背景下。报道称，亚马逊预计今年资本支出将达到 2000 亿美元，其中绝大多数将流向 AI 和数据中心基础设施。这种财务投入自然会增加展示利用率的压力。管理层希望看到证据，证明昂贵的基础设施没有闲置。

从这个角度看，token 数量很诱人。它们即时、可量化，也便于比较。但它们也是一个浅层指标。高 token 总量可能反映的是高效的编程辅助、无谓的试验、重复任务，或者纯粹的 tokenmaxxing。在没有更强结果指标的情况下，使用数据可能讲出一个自信却不完整的故事。

管理层面得到的教训

这里最重要的教训并不是员工操纵了某个指标。只要激励机制把这种做法变得理性，员工总会去钻指标的空子。真正的教训是，组织需要准确界定自己在奖励什么。如果目标是更好的软件、更快的交付，或更高质量的内部运营，那么这些结果就应该尽可能直接地衡量。如果被衡量的目标只是“更多使用 AI”，员工就会想办法照做。

这并不意味着使用数据毫无价值。它可以显示工具是否被发现、推广是否不均衡，或者哪些团队可能需要支持。但当可见性和压力的增长快于对价值的清晰认知时，指标就会变成一场游戏。“tokenmaxxing”这个词，正好给这种失灵模式贴上了一个有用的警示标签。

Joolca Hottap Go 评测：一款面向冒险者的 700 美元便携式淋浴器

Joolca Hottap Go 是一款适用于露营、房车生活和户外工作的高端一体化便携式热水系统。售价 554 美元，另加可选电池，它提供了便利和舒适，但价格不菲。

Read article

AI 下一阶段的职场张力信号

多年来，职场 AI 讨论的重点一直是员工是否会采用这些工具。亚马逊这一事件提示，下一阶段可能会不同：如何防止过度采用的表演、浅层使用激励，以及内部仪表盘扭曲行为。随着企业争相证明 AI 投资正在见效，他们也许会发现，衡量使用量只是最容易的一步。衡量有价值的使用，才更难。

随着企业 AI 逐渐成为常态，这种区分的重要性只会越来越高。那些处理得好的组织，不会是 token 数字最大的公司，而是那些能区分真正杠杆效应和昂贵噪音的公司。

本文基于 Ars Technica 的报道。阅读原文。

Originally published on arstechnica.com

亚马逊的“Tokenmaxxing”问题内幕

当 AI 采用目标开始塑造行为时

这种行为背后的激励

Truth Social将向顶级账号出售实时API访问

为什么这不仅关乎亚马逊

MeshClaw 与 agentic 办公软件的增长

OMB 资助提案引发太空科学倡导者强烈反弹

高成本背景下的内部压力

管理层面得到的教训

Joolca Hottap Go 评测：一款面向冒险者的 700 美元便携式淋浴器

AI 下一阶段的职场张力信号

Comments (0)

Related Articles

Meta因Instagram和Facebook成瘾性设计面临欧盟120亿美元罚款

Keep Reading