Google 正在围绕后台工作和交互式工作重塑 Gemini API
Google 为 Gemini API 推出了两个新的服务层级,名为 Flex 和 Priority,这一举措反映出开发者使用生成式 AI 系统的方式正在出现越来越明显的分化。Google 表示,现代 AI 应用正越来越多地包含两类不同的工作:一种是可以容忍延迟的后台任务,另一种是需要更高可靠性的面向用户任务。新的层级旨在让开发者通过同一个同步接口来处理这两类流量。
这看起来像是一次定价更新,但实际上不止于此。它是在就 AI 应用设计未来走向发出一项基础设施层面的声明。
新层级的作用
Flex Inference 是面向成本优化的选项。Google 表示,通过降低请求的关键性,它与 Standard API 相比可节省 50% 的费用,这意味着开发者以更低的可靠性和更高的延迟为代价,换取更低的成本。该公司将 Flex 定位于后台 CRM 更新、大规模研究模拟,以及那些模型可以在幕后“浏览”或“思考”、而无需立即面对用户压力的 agentic 工作流。
Priority Inference 则走向另一个方向。Google 表示,它以溢价提供最高级别的保障,面向聊天机器人和 copilot 等关键交互式应用,在这些场景中,响应可靠性比压低成本更重要。
关键的设计决策是,两种层级都使用标准的同步端点。Google 明确表示,这样做是为了消除在传统服务与异步 Batch API 之间拆分架构所带来的复杂性。
为何这对开发者重要
这项公告最重要的部分不只是更低的成本或更高的保障,而是试图简化架构。到目前为止,开发者往往必须为不同的 AI 任务管理不同模式,为交互式工作使用同步 API,为更便宜、紧迫性更低的任务使用异步批处理流程。
Google 正在试图消除这种分裂。现在,开发者无需围绕不同的请求模型重设计工作流,就可以通过单一接口调整服务层级。随着 AI 系统变得更具 agentic 特征,并开始在同一产品中把用户可见操作与隐藏的后台处理结合起来,这一点尤为重要。
实际上,Gemini API 正在被调整以适应一种新的应用现实。有些请求属于对话本身。另一些则是那些在后台进行准备、研究、丰富或评估的隐形工作。将这些工作视为一级服务类别,在实践上是合理的。
Agentic AI 的经济学
Google 的定价信号也很有意味。针对可容忍延迟的工作提供 50% 更便宜的层级,承认了许多开发者希望扩大 AI 使用规模,但又无法证明为每一项任务都按交互级别付费是合理的。随着应用越来越自主,非紧急模型调用的数量可能会迅速增长。
这使得分层在经济上具有战略意义。企业需要一种方式,既能在后台认知上少花钱,又能在失败或延迟不可接受的地方多花钱。Flex 和 Priority 实际上将这种分工制度化了。
因此,这一公告也说明市场正在走向成熟。早期的生成式 AI 产品通常将模型访问视为单一的高端服务。更先进的部署正在迫使提供商按紧迫性、可靠性和预算进行细分。
更明确的控制界面
Google 将这一变化描述为让开发者拥有“对成本和可靠性的细粒度控制”。这个表述是准确的。该公司卖的不只是模型访问权,而是对这些模型在应用不同部分中如何被消费的运营控制权。
这很可能会成为行业标准。随着 AI 工作负载愈发多样化,开发者将越来越期待与产品逻辑相匹配的推理选项,而不仅仅是与模型身份相匹配。Google 的新层级是迄今最明确的信号之一,表明提供商现在将 agentic 软件视为紧急智能与非紧急智能的混合体,而每一种都需要不同的服务要求。
对于在 Gemini 上构建产品的团队来说,实际收益是立刻可见的。他们现在可以在不离开同一同步 API 界面的情况下,选择更便宜的后台推理和高端的交互式推理。对于更广泛的市场而言,结论更大:AI 平台竞争已不再只围绕模型质量,而是更深入地进入工作负载经济学和可靠性工程。
本文基于 Google AI Blog 的报道。阅读原文。
Originally published on blog.google

