AI 的下一个瓶颈不再只是训练

Google 和 Nvidia 借助 Google Cloud Next 聚焦了一个正在迅速进入 AI 商业核心的问题:推理成本。根据候选提要,这两家公司概述了一项旨在应对大规模 AI 模型服务成本的硬件路线图,其中包括新的 A5X 裸金属实例。

即便只是摘要形式,这一强调重点的变化也很有意义。在过去几年里,AI 基础设施讨论很大一部分都围绕着训练越来越大的模型展开。但一旦系统进入生产阶段,推理就会成为持续性的运营支出。每当用户提交提示词、应用调用模型,或智能体再进行一轮推理时,都会产生这笔成本。

为什么推理经济性如今如此重要

AI 产品要么在这里成为可行的生意,要么仍只是昂贵的演示。实验室可以为高昂的训练成本找到理由,只要最终模型在战略上足够重要。然而,云客户需要的是能在日常运营中成立的经济模型。更低的服务成本可以扩大利润率、支持更便宜的产品,或让性能目标更具进取性。

这就是此类基础设施公告具有战略分量的原因。Google 和 Nvidia 不只是交付更多硬件,他们是在解决一个影响整个技术栈采用的约束,从面向消费者的聊天机器人到企业副驾驶,再到工业自动化系统。

云端竞争正在演变为效率竞争

提要明确指出,这一路线图是在 Google Cloud Next 上发布的,目标是应对“at scale”的推理成本。这个表述很关键,因为云 AI 竞争不再只是围绕加速器的可获得性。竞争也在于这些加速器能以多高效率被部署、调度,并通过与真实工作负载相匹配的实例提供给客户。

提到 A5X 裸金属实例表明,Google 正在瞄准那些希望对高性能基础设施拥有更直接控制权的客户。对于大型 AI 部署而言,裸金属产品很重要,因为它们减少了软件与硬件之间的层级,可能提升性能并增强调优灵活性。所给文本没有提供完整技术细节,因此不宜宣称具体收益。但其定位很清楚:这是面向严肃生产级推理的基础设施。