Google 为 Gemini API 增加 Flex 和 Priority 推理层级

Google 正在围绕后台工作和交互式工作重塑 Gemini API

Google 为 Gemini API 推出了两个新的服务层级，名为 Flex 和 Priority，这一举措反映出开发者使用生成式 AI 系统的方式正在出现越来越明显的分化。Google 表示，现代 AI 应用正越来越多地包含两类不同的工作：一种是可以容忍延迟的后台任务，另一种是需要更高可靠性的面向用户任务。新的层级旨在让开发者通过同一个同步接口来处理这两类流量。

这看起来像是一次定价更新，但实际上不止于此。它是在就 AI 应用设计未来走向发出一项基础设施层面的声明。

新层级的作用

Flex Inference 是面向成本优化的选项。Google 表示，通过降低请求的关键性，它与 Standard API 相比可节省 50% 的费用，这意味着开发者以更低的可靠性和更高的延迟为代价，换取更低的成本。该公司将 Flex 定位于后台 CRM 更新、大规模研究模拟，以及那些模型可以在幕后“浏览”或“思考”、而无需立即面对用户压力的 agentic 工作流。

Priority Inference 则走向另一个方向。Google 表示，它以溢价提供最高级别的保障，面向聊天机器人和 copilot 等关键交互式应用，在这些场景中，响应可靠性比压低成本更重要。

关键的设计决策是，两种层级都使用标准的同步端点。Google 明确表示，这样做是为了消除在传统服务与异步 Batch API 之间拆分架构所带来的复杂性。

为何这对开发者重要

这项公告最重要的部分不只是更低的成本或更高的保障，而是试图简化架构。到目前为止，开发者往往必须为不同的 AI 任务管理不同模式，为交互式工作使用同步 API，为更便宜、紧迫性更低的任务使用异步批处理流程。

Google 正在试图消除这种分裂。现在，开发者无需围绕不同的请求模型重设计工作流，就可以通过单一接口调整服务层级。随着 AI 系统变得更具 agentic 特征，并开始在同一产品中把用户可见操作与隐藏的后台处理结合起来，这一点尤为重要。

实际上，Gemini API 正在被调整以适应一种新的应用现实。有些请求属于对话本身。另一些则是那些在后台进行准备、研究、丰富或评估的隐形工作。将这些工作视为一级服务类别，在实践上是合理的。

Agentic AI 的经济学

Google 的定价信号也很有意味。针对可容忍延迟的工作提供 50% 更便宜的层级，承认了许多开发者希望扩大 AI 使用规模，但又无法证明为每一项任务都按交互级别付费是合理的。随着应用越来越自主，非紧急模型调用的数量可能会迅速增长。

这使得分层在经济上具有战略意义。企业需要一种方式，既能在后台认知上少花钱，又能在失败或延迟不可接受的地方多花钱。Flex 和 Priority 实际上将这种分工制度化了。

因此，这一公告也说明市场正在走向成熟。早期的生成式 AI 产品通常将模型访问视为单一的高端服务。更先进的部署正在迫使提供商按紧迫性、可靠性和预算进行细分。

更明确的控制界面

Google 将这一变化描述为让开发者拥有“对成本和可靠性的细粒度控制”。这个表述是准确的。该公司卖的不只是模型访问权，而是对这些模型在应用不同部分中如何被消费的运营控制权。

这很可能会成为行业标准。随着 AI 工作负载愈发多样化，开发者将越来越期待与产品逻辑相匹配的推理选项，而不仅仅是与模型身份相匹配。Google 的新层级是迄今最明确的信号之一，表明提供商现在将 agentic 软件视为紧急智能与非紧急智能的混合体，而每一种都需要不同的服务要求。

对于在 Gemini 上构建产品的团队来说，实际收益是立刻可见的。他们现在可以在不离开同一同步 API 界面的情况下，选择更便宜的后台推理和高端的交互式推理。对于更广泛的市场而言，结论更大：AI 平台竞争已不再只围绕模型质量，而是更深入地进入工作负载经济学和可靠性工程。

本文基于 Google AI Blog 的报道。阅读原文。

Originally published on blog.google

Google 为 Gemini API 增加 Flex 和 Priority 层级，AI 工作负载一分为二

Google 正在围绕后台工作和交互式工作重塑 Gemini API

新层级的作用

为何这对开发者重要

Agentic AI 的经济学

更明确的控制界面

Comments (0)

Related Articles

MISUMI以10亿美元AI制造押注启动美洲扩张

Keep Reading