Why memory is becoming the next AI constraint

随着 AI 系统越来越强大,围绕规模的讨论通常聚焦于原始算力。但另一个限制正变得越来越难以忽视:内存。大型语言模型需要工作内存来跟踪提示词、生成的 token、中间状态以及上下文,从而回应用户。这种临时存储通常被称为 key-value cache 或 KV cache,其占用会随着使用而增长,并可能很快变得昂贵。

谷歌工程师表示,他们已经开发出一种方法,可以大幅缩小这一负担。该系统名为 TurboQuant,被描述为一种压缩技术,能够在保持相同信息和计算能力的同时,将 AI 模型所需的工作内存最多减少六倍。如果这一说法在更广泛的使用场景中成立,那么其结果本身不会让模型更智能,但会让它们的部署成本更低、规模化服务更容易。

这一点很重要。AI 行业多年来一直在追求更大的模型和更大规模的训练。TurboQuant 关注的是方程式的运行侧:当用户开始以十亿级别发送请求时,要让这些模型高效运行究竟需要什么。

What TurboQuant is trying to solve

在活跃处理期间,AI 系统会把即时计算结果和其他相关数据存入内存,以便继续生成连贯输出。这对于对话、长提示词以及涉及大量 token 的任务至关重要。模型一次保留的上下文越多,它在复杂工作中的用处就越大。但保留这些上下文需要内存,而当提示词变长、用户增多时,内存使用也会随之增长。

根据原始报道,将数十万 token 存储在 KV cache 中可能需要数十 GB 内存。这些需求会随着用户数量线性增长。对于运营热门聊天机器人或企业 AI 服务的提供商来说,这会直接形成基础设施问题。即使模型有足够的算力可用,内存也可能限制吞吐量并抬高成本。

TurboQuant 通过量化来解决这一问题。量化是一种用更少位数表示数值的方法。简单来说,它把工作内存中的数据压缩成更小的形式,而模型仍然可以像使用原始数据一样使用它。它的承诺不是让模型学到更多,而是让模型以更高效率携带它已经需要的信息。

Why this matters for deployment

内存效率并不像新基准或新模型发布那样引人注目,但它可能是 AI 工程中最具影响力的领域之一。如果模型执行相同计算所需的工作内存少得多,提供商就可能用同样的硬件服务更多用户,或者减少某项工作负载所需的专用内存。

这在多个场景中都很重要。在大型数据中心,它影响成本、硬件规划和系统利用率。在企业部署中,它会决定某些工作负载是可行还是过于昂贵。在较小设备上,效率提升则可能影响更强大的模型是否能够更接近边缘端运行,而不是完全依赖云端。

原始报道还将 TurboQuant 视为一种趋势的一部分,即让先进 AI 对持续增加的硬件资源依赖更低。这并不意味着算力不再重要,而是意味着当模型达到一定能力水平后,更好的内存和能耗系统工程,实际上可能释放下一阶段性能提升中的相当一部分。