基准测试的胜利正在与部署现实碰撞

过去一年里,代理式 AI 中较具影响力的一个理念就是“技能”的兴起:这些可复用的文本文件将工作流程、最佳实践、API 指令和领域专门指导打包起来,使代理在完成任务时可以调用它们。在受控评估中,这一思路看起来很强大。The Decoder 强调的一项新研究则认为,在更真实的条件下,这种效果要弱得多。

来自加州大学圣塔芭芭拉分校、MIT CSAIL 和 MIT-IBM Watson AI Lab 的研究人员测试了从开源仓库收集的 34,198 项真实世界技能。他们的结论很直接:技能带来的收益很脆弱。当条件变得不那么精心设计、也更接近实际部署时,性能提升会急剧缩小,在最困难的设置中几乎只比没有技能的基线略好一点。

这很重要,因为技能已经成为 AI 代理宣传中的核心承诺之一。支持者认为,如果一个通用模型能够在合适的时刻动态调用相关手册,它就能在不重新训练的情况下表现得更像专家。这项新研究并未完全否定这一愿景。不过,它确实表明,围绕这一概念的许多信心,可能建立在把检索问题人为简化了的基准测试之上。

为什么早期基准可能高估了收益

这项研究将矛头指向了 SKILLSBENCH,一个现有的基准测试,它向代理提供人工筛选、面向任务的技能。研究人员指出,这些材料往往包含与任务高度贴合的指令,以至于它们更像是接近解答本身,而不是一个现实可用的资源。文中引用的一个例子涉及 USGS 水位监测站的洪水日识别,其中提供的技能据称包含了精确的 API、阈值来源,以及完成任务所需的现成代码模式。

这种设置适合衡量模型是否能遵循指令。但它远不适合衡量代理能否在一个杂乱的、异构技能混杂的仓库中找到方向,判断哪些内容重要,将它们适配到当前任务,并忽略无关项。现实系统很少会收到一套完美安排好的三份理想文档。它们必须在噪声、歧义和部分重叠中进行搜索。

这种区别并不是学术上的细枝末节。如果代理只有在被直接递上一份定制菜谱时才表现出色,那么基准测试的成功并不能说明它在企业代码库、开源工具环境,或通用生产力工作流中的表现如何,因为在这些场景里,相关指令可能不完整、命名不佳,或者根本不存在。

更大、更多噪声的测试集改变了图景

为了检验这一差距,研究人员从 skillhub.club 和 skills.sh 整理了一个使用宽松许可证的庞大技能语料库,去重后在更接近实际使用的条件下对模型进行测试。评估不再直接给出正确指令,而是强制代理从更广泛的集合中识别并使用技能。

这一变化似乎起到了决定性作用。在这些更现实的约束下,那些在适合基准测试的环境中看起来相当可观的收益大多消失了。研究还报告了一个重要的次级效应:较弱的模型在使用技能时表现反而更差。这表明,检索和应用并不是无成本的收益。它们会增加一层推理负担,而本就脆弱的模型可能会因为额外指令而分心,而不是得到帮助。

从实践上说,这意味着技能只有在多个系统同时正常工作时,才可能真正改善结果:

  • 代理必须识别出需要某项技能。
  • 它必须从嘈杂的池子里检索出正确的那一项。
  • 它必须理解哪些部分相关。
  • 它必须把这些指令适配到当前具体任务。
  • 它必须避免被无关或过于笼统的指导误导。

如果其中任何一步失败,预期收益都可能崩塌。

这对代理技术栈意味着什么

这项研究并没有证明技能毫无用处。它表明,问题最困难的部分也许不在于编写模块化指令,而在于编排可靠的发现和应用过程。这将注意力从把技能视为一种独立能力,转移到周边基础设施上:索引、排序、检索质量、任务拆分和评估设计。

它也让围绕代理平台建立起来的竞争叙事变得更复杂。Anthropic 在 2025 年末为 Claude Code 引入了技能,这一概念随后迅速扩展到 OpenAI 的 Codex 生态系统以及一系列开源项目。迅速采用让技能看起来像代理可扩展性的新兴标准。这项研究则表明,这个标准可能仍不成熟,尤其是如果它最强的公开证据主要来自于有利的测试设置。

对于部署代理的团队来说,这一结论更偏向运维,而非理念层面。在结构清晰、命名一致的仓库中,技能仍然可能很有价值。当人类围绕某个特定工作流挑选并整理较少数量的技能时,它们也可能表现良好。但这些结果暗示,把成千上万项技能丢给一个代理,并期待它稳健地自助专精,目前还不是一个已经解决的问题。

对于一个经常把模块化视作自动升级的领域来说,这是一个重要的修正。在代理系统中,模块化只有在模型能够驾驭它时才有帮助。最新证据表明,适合基准测试的承诺与可用于生产的实用性之间,距离仍然很远。

本文基于 The Decoder 的报道。阅读原文

Originally published on the-decoder.com