Google TurboQuant 可将 AI 内存使用量最高降低六倍

Why memory is becoming the next AI constraint

随着 AI 系统越来越强大，围绕规模的讨论通常聚焦于原始算力。但另一个限制正变得越来越难以忽视：内存。大型语言模型需要工作内存来跟踪提示词、生成的 token、中间状态以及上下文，从而回应用户。这种临时存储通常被称为 key-value cache 或 KV cache，其占用会随着使用而增长，并可能很快变得昂贵。

谷歌工程师表示，他们已经开发出一种方法，可以大幅缩小这一负担。该系统名为 TurboQuant，被描述为一种压缩技术，能够在保持相同信息和计算能力的同时，将 AI 模型所需的工作内存最多减少六倍。如果这一说法在更广泛的使用场景中成立，那么其结果本身不会让模型更智能，但会让它们的部署成本更低、规模化服务更容易。

这一点很重要。AI 行业多年来一直在追求更大的模型和更大规模的训练。TurboQuant 关注的是方程式的运行侧：当用户开始以十亿级别发送请求时，要让这些模型高效运行究竟需要什么。

What TurboQuant is trying to solve

在活跃处理期间，AI 系统会把即时计算结果和其他相关数据存入内存，以便继续生成连贯输出。这对于对话、长提示词以及涉及大量 token 的任务至关重要。模型一次保留的上下文越多，它在复杂工作中的用处就越大。但保留这些上下文需要内存，而当提示词变长、用户增多时，内存使用也会随之增长。

根据原始报道，将数十万 token 存储在 KV cache 中可能需要数十 GB 内存。这些需求会随着用户数量线性增长。对于运营热门聊天机器人或企业 AI 服务的提供商来说，这会直接形成基础设施问题。即使模型有足够的算力可用，内存也可能限制吞吐量并抬高成本。

TurboQuant 通过量化来解决这一问题。量化是一种用更少位数表示数值的方法。简单来说，它把工作内存中的数据压缩成更小的形式，而模型仍然可以像使用原始数据一样使用它。它的承诺不是让模型学到更多，而是让模型以更高效率携带它已经需要的信息。

Why this matters for deployment

内存效率并不像新基准或新模型发布那样引人注目，但它可能是 AI 工程中最具影响力的领域之一。如果模型执行相同计算所需的工作内存少得多，提供商就可能用同样的硬件服务更多用户，或者减少某项工作负载所需的专用内存。

这在多个场景中都很重要。在大型数据中心，它影响成本、硬件规划和系统利用率。在企业部署中，它会决定某些工作负载是可行还是过于昂贵。在较小设备上，效率提升则可能影响更强大的模型是否能够更接近边缘端运行，而不是完全依赖云端。

原始报道还将 TurboQuant 视为一种趋势的一部分，即让先进 AI 对持续增加的硬件资源依赖更低。这并不意味着算力不再重要，而是意味着当模型达到一定能力水平后，更好的内存和能耗系统工程，实际上可能释放下一阶段性能提升中的相当一部分。

A quieter kind of AI breakthrough

最重要的 AI 进步并不总是那些终端用户能叫出名字的突破。许多进步发生在表层之下，发生在架构和服务层，而正是这些层决定了一个模型究竟只是演示时令人印象深刻，还是能够在产品中长期可持续。

TurboQuant 符合这一模式。它不是新的聊天机器人，也不是新的模型家族。它是一个面向实际问题的效率工具，而这个问题会随着需求增长而变得更加严峻。在行业竞相扩大 AI 可及性，同时又面临基础设施和能源约束的时期，这类进步或许比又一次头条式的模型规模增长更有价值。

如果谷歌的结果能够从实验室延伸到现实世界，TurboQuant 将提醒人们：AI 的未来不仅取决于模型知道什么，也取决于它们在工作时能够多高效地记住信息。

This article is based on reporting by Live Science. Read the original article.

Google 的 TurboQuant 指向 AI 的新瓶颈：内存效率

Why memory is becoming the next AI constraint

What TurboQuant is trying to solve

Why this matters for deployment

Related Articles

Keep Reading

The broader technical significance

量子隐形传态实验在 270 米范围内连接了独立光子源

Where the benefit could show up first

A quieter kind of AI breakthrough

科学家捕捉到太平洋西北部下方的卡斯卡迪亚板块正在撕裂

Comments (0)

阻断PTP1B让小鼠记忆恢复，为阿尔茨海默病研究开辟新路径

一枚已耗尽的猎鹰9号级段如今正飞向月球，重新点燃太空垃圾争论