Google 直击编码助手的一个基本弱点

Google 推出了一项称为 “Agent Skill” 的 Gemini API 功能,旨在解决一个影响几乎所有基于大语言模型构建的编码助手的问题:模型本身可能很强,但它对工具、SDK 和最佳实践的内部知识可能已经落后于现实。

这家公司的思路在原理上很简单。与其指望模型的训练数据包含最新的产品变化,不如让这个 skill 向 agent 提供有关可用模型、软件开发工具包和示例代码的最新信息。这样,系统就拥有了一层实时参考,用于那些版本漂移和过时用法经常导致失败的任务。

这很重要,因为许多实际中的编码错误并不是真正的推理失败,而是文档失败。模型或许足够理解编程概念,但如果它调用了错误的函数、引用了过时的包接口,或者依赖了已经不再推荐的示例,就仍然可能生成无法使用的代码。

基准测试的提升幅度很大

根据公布的测试结果,这一效果在一个包含 117 个编码任务的基准测试中表现得非常明显。Google 在对比中表现最好的模型 Gemini 3.1 Pro Preview,在没有该 skill 时的成功率为 28.2%,加入后提升到了 96.6%。

如果这些数字能推广到基准测试之外,它们就相当引人注目。原因不在于它们说明模型的原始智能突然发生了变化,而在于它们表明,性能在多大程度上取决于是否能获取当前、结构化的指导。这个 skill 本质上是在缩小模型能够推理出来的内容,与它实际了解、并且应该使用的工具链之间的差距。

Google 还表示,更老的 Gemini 2.5 模型收益要小得多。给出的解释是,新模型推理能力更强,也更能有效利用注入的信息。按这种理解,skill 并不是替代推理,而是通过提供模型能够有效利用的相关上下文来增强推理。

对于评估 AI 系统的开发者来说,这一区分很重要。更好的 grounding 数据如果模型无法理解,也不会带来太大帮助。但如果强模型被迫依赖陈旧知识,它们的表现可能会很差。Google 的结果表明,最大的收益也许来自把高能力模型与当前、范围明确的参考材料结合起来。

AI 编码系统构建方式的更广泛转变

这项公告也反映了 AI 工具的一个更大趋势。开发者越来越不再把模型权重视为唯一真相来源,而是在通用模型之上叠加外部指令、skills、代码仓库或协议服务。Anthropic 的 skills 框架帮助普及了这种模式,而 Google 的版本则将其直接应用到最具商业价值的用途之一:代码生成。

从实际角度看,这意味着一种转变:不再假设某个巨大的预训练模型已经知道解决现代软件任务所需的一切。对于快速变化的平台,这种期待一直都不现实。API 变化太频繁,SDK 演进太快,官方模式也在持续更新。环境越动态,仅靠训练数据的方法就越脆弱。

Google 显然正在承认这种脆弱性,并在系统层面加以应对。模型仍然是推理引擎,但这个 skill 成为了在推理时更新其工作知识的载体。

报道还提到,Vercel 的一项研究表明,像

AGENTS.md

这样的直接指令文件在某些情况下可能更有效,而 Google 也在探索包括 MCP 服务在内的其他选项。这说明公司并不认为当前的 skill 就是最终答案。相反,它看起来只是一个更广泛设计原则的实现方式之一:当编码 agent 连接到经过维护、且与任务相关的外部知识时,表现会更好。

开发者为何应当关注

对于实际的软件团队来说,这意味着一个务实的结论。AI 编码助手的质量,可能不只是取决于模型品牌,还取决于系统是否能访问正确的本地上下文、最新文档,以及反映当前最佳实践的示例。一个单独看起来平平无奇的模型,在正确 grounding 之后,可能会变得非常有效。一个看起来很强大的模型,如果任其凭空编造过时接口,也可能表现糟糕。

这会影响产品设计。厂商当然可以继续追逐更大的模型,但如果改进检索、文档流水线和指令层,他们也许能更快获得收益。Google 自己的测试结果强有力地说明了这一点:提升不是渐进式的,而是变革性的。

不过仍需谨慎。公布的数据来自一个特定基准,而基准测试并不总能反映真实开发环境中的复杂情况。它们也无法完全回答可维护性、调试质量,或 agent 处理模糊需求的能力等问题。但核心结论是可信的,而且越来越难以忽视。

AI 编码系统不只是需要智能,它们还需要新鲜度。Google 的 Gemini API Agent Skill 是将这一想法落地的一个具体尝试,而报告中的提升表明,让模型与其不断演进的生态系统保持同步,可能是让它们真正变得有用的最有效方式之一。

本文基于 The Decoder 的报道。阅读原文