AI agent skills struggle in real-world testing despite benchmark gains

基准测试的胜利正在与部署现实碰撞

过去一年里，代理式 AI 中较具影响力的一个理念就是“技能”的兴起：这些可复用的文本文件将工作流程、最佳实践、API 指令和领域专门指导打包起来，使代理在完成任务时可以调用它们。在受控评估中，这一思路看起来很强大。The Decoder 强调的一项新研究则认为，在更真实的条件下，这种效果要弱得多。

来自加州大学圣塔芭芭拉分校、MIT CSAIL 和 MIT-IBM Watson AI Lab 的研究人员测试了从开源仓库收集的 34,198 项真实世界技能。他们的结论很直接：技能带来的收益很脆弱。当条件变得不那么精心设计、也更接近实际部署时，性能提升会急剧缩小，在最困难的设置中几乎只比没有技能的基线略好一点。

这很重要，因为技能已经成为 AI 代理宣传中的核心承诺之一。支持者认为，如果一个通用模型能够在合适的时刻动态调用相关手册，它就能在不重新训练的情况下表现得更像专家。这项新研究并未完全否定这一愿景。不过，它确实表明，围绕这一概念的许多信心，可能建立在把检索问题人为简化了的基准测试之上。

为什么早期基准可能高估了收益

这项研究将矛头指向了 SKILLSBENCH，一个现有的基准测试，它向代理提供人工筛选、面向任务的技能。研究人员指出，这些材料往往包含与任务高度贴合的指令，以至于它们更像是接近解答本身，而不是一个现实可用的资源。文中引用的一个例子涉及 USGS 水位监测站的洪水日识别，其中提供的技能据称包含了精确的 API、阈值来源，以及完成任务所需的现成代码模式。

这种设置适合衡量模型是否能遵循指令。但它远不适合衡量代理能否在一个杂乱的、异构技能混杂的仓库中找到方向，判断哪些内容重要，将它们适配到当前任务，并忽略无关项。现实系统很少会收到一套完美安排好的三份理想文档。它们必须在噪声、歧义和部分重叠中进行搜索。

这种区别并不是学术上的细枝末节。如果代理只有在被直接递上一份定制菜谱时才表现出色，那么基准测试的成功并不能说明它在企业代码库、开源工具环境，或通用生产力工作流中的表现如何，因为在这些场景里，相关指令可能不完整、命名不佳，或者根本不存在。

更大、更多噪声的测试集改变了图景

为了检验这一差距，研究人员从 skillhub.club 和 skills.sh 整理了一个使用宽松许可证的庞大技能语料库，去重后在更接近实际使用的条件下对模型进行测试。评估不再直接给出正确指令，而是强制代理从更广泛的集合中识别并使用技能。

这一变化似乎起到了决定性作用。在这些更现实的约束下，那些在适合基准测试的环境中看起来相当可观的收益大多消失了。研究还报告了一个重要的次级效应：较弱的模型在使用技能时表现反而更差。这表明，检索和应用并不是无成本的收益。它们会增加一层推理负担，而本就脆弱的模型可能会因为额外指令而分心，而不是得到帮助。

从实践上说，这意味着技能只有在多个系统同时正常工作时，才可能真正改善结果：

代理必须识别出需要某项技能。
它必须从嘈杂的池子里检索出正确的那一项。
它必须理解哪些部分相关。
它必须把这些指令适配到当前具体任务。
它必须避免被无关或过于笼统的指导误导。

如果其中任何一步失败，预期收益都可能崩塌。

这对代理技术栈意味着什么

这项研究并没有证明技能毫无用处。它表明，问题最困难的部分也许不在于编写模块化指令，而在于编排可靠的发现和应用过程。这将注意力从把技能视为一种独立能力，转移到周边基础设施上：索引、排序、检索质量、任务拆分和评估设计。

它也让围绕代理平台建立起来的竞争叙事变得更复杂。Anthropic 在 2025 年末为 Claude Code 引入了技能，这一概念随后迅速扩展到 OpenAI 的 Codex 生态系统以及一系列开源项目。迅速采用让技能看起来像代理可扩展性的新兴标准。这项研究则表明，这个标准可能仍不成熟，尤其是如果它最强的公开证据主要来自于有利的测试设置。

对于部署代理的团队来说，这一结论更偏向运维，而非理念层面。在结构清晰、命名一致的仓库中，技能仍然可能很有价值。当人类围绕某个特定工作流挑选并整理较少数量的技能时，它们也可能表现良好。但这些结果暗示，把成千上万项技能丢给一个代理，并期待它稳健地自助专精，目前还不是一个已经解决的问题。

对于一个经常把模块化视作自动升级的领域来说，这是一个重要的修正。在代理系统中，模块化只有在模型能够驾驭它时才有帮助。最新证据表明，适合基准测试的承诺与可用于生产的实用性之间，距离仍然很远。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

AI 代理“技能”在测试更接近真实世界后显示出有限收益

基准测试的胜利正在与部署现实碰撞

为什么早期基准可能高估了收益

更大、更多噪声的测试集改变了图景

这对代理技术栈意味着什么

Comments (0)

Related Articles

MISUMI以10亿美元AI制造押注启动美洲扩张

Keep Reading