对话正在从GPU转向内存

过去几年来,围绕AI基础设施成本的叙事被一个话题主导:英伟达GPU。图形处理单元的短缺、定价和分配推动了科技产业的新闻头条、投资决策和企业战略。但在行业对AI基础设施经济学的思考方式上,一场更为平静的转变正在进行。越来越多的是,内存而不是处理能力正在成为AI系统性能和成本的约束因素。

当你研究现代AI模型实际如何运作时,这个动态就很合理。大型语言模型不是简单地计算答案。它必须在活跃内存中保存大量数据,并以极高的速度访问,以处理每个请求。模型的权重——编码其知识和能力的数值参数——必须在推理开始前加载到内存中。对于拥有数千亿甚至万亿参数的前沿模型,保存这些权重所需的内存远远超过传统计算系统的设计容量。

高带宽内存:关键组件

已成为AI基础设施中心的特定类型内存是高带宽内存,简称HBM。与消费类计算机中的标准DRAM不同,HBM将多层内存芯片垂直堆叠并用极宽的数据总线连接,使数据传输速率比传统内存快几个数量级。这种速度至关重要,因为英伟达的H100和H200 GPU等AI加速器能够比标准内存传递数据更快地处理数据。没有HBM,这些处理器将大部分时间用于等待数据,使其计算能力基本上无用。

HBM使用先进的封装技术物理上结合到AI加速器,创建一个集成模块,其中内存和处理紧密耦合。这种集成提供了AI工作负载所需的带宽,但也创建了供应链依赖:每个运出的AI加速器都需要相应的HBM分配,而HBM的生产能力集中在全球仅有的三家制造商。

三家公司的寡头垄断

全球HBM供应由三家公司控制:SK hynix、三星和美光。韩国半导体制造商SK hynix目前主导市场,是英伟达的主要HBM供应商。尽管三星按总收入计是全球最大的内存芯片公司,但在其HBM生产中遭遇良率问题,并已将大量市场份额丧失给这一关键领域的SK hynix。美国内存制造商美光凭借具有竞争力的HBM产品取得进展,但其运营规模比韩国竞争对手要小。

这种集中的供应结构为HBM制造商创造了重大的定价权力,并对AI基础设施公司造成脆弱性。当需求超过供应时,就像过去两年来一直发生的那样,价格上升,分配变成战略谈判而不是直接的采购流程。建立AI数据中心的公司必须提前确保HBM承诺,通常以溢价签署长期供应协议,以确保他们能获得计划部署所需的内存。

经济学意义显著。HBM可以代表AI加速器模块总成本的30%到40%,这个比例一直在增长,因为HBM价格比更广泛的半导体市场增长更快。对于在新数据中心部署数千个AI加速器的公司,仅内存账单就可能达到数亿美元。

为什么需求不断增长

几个趋势正在汇聚,加剧对HBM和AI级内存的需求。最明显的是模型规模的持续增长。前沿AI模型的每一代新产品往往都比前一代显著更大,需要比例更高的内存来存储其参数。但模型大小只是等式的一部分。

推理需求可能比训练更是内存消耗的重要驱动力。虽然训练模型是一个一次性(或周期性)的过程,需要在有限的时期内进行大量计算资源,但推理(实际运行模型以响应用户请求的过程)是连续的并随用户采用而扩展。每个聊天交互、每个代码完成、每个图像生成请求都需要将模型权重加载到内存中,并在整个处理过程中保持。

随着AI应用的扩散和用户采用的增长,整个行业的总推理需求正在呈指数增长。公司正在客户服务、软件开发、内容创建、数据分析和数百种其他应用中部署模型,每个应用都产生持续的内存需求。同时服务所有这些工作负载所需的总内存现在代表全球HBM生产能力的一个重要部分。

上下文窗口扩展是另一个因素。像Anthropic的Claude和Google的Gemini这样的模型现在提供一百万个或更多令牌的上下文窗口,意思是他们可以在单个请求中处理大量输入文本。处理这些大上下文需要在整个处理管道中在内存中存储注意状态和中间计算,增加每个请求的内存消耗。

对基础设施规划的连锁反应

内存约束正开始以两年前似乎不太可能的方式影响AI基础设施决策。数据中心建筑师正在设计系统,将内存配置作为主要约束而不是事后的想法。云提供商正在为AI推理工作负载创建内存优化的实例类型。硬件公司正在探索可以以较低成本提供更高容量或带宽的新型内存技术。

内存挑战也影响模型开发决策。一些AI实验室正在大量投资技术来减少其模型的内存占用,而不牺牲能力,包括量化(减少模型权重的数值精度)和混合专家架构(为每个请求激活模型参数的子集)。这些技术不仅仅是学术练习。它们是对内存在部署经济学上施加的实际约束的直接回应。

对于更广泛的AI生态系统,从GPU到内存的关注转变代表了对什么实际上决定了大规模AI部署的成本和可行性的理解的成熟。GPU短缺的说法,虽然还没有完全解决,但已通过增加生产能力和AMD等竞争对手的进入以及主要云提供商的定制硅的加入而得到部分解决。相比之下,内存面临更长的产能扩张交付时间和更少的竞争替代品,使其成为更持久和结构性更具挑战性的瓶颈。

接下来会发生什么

内存公司正在以雄心勃勃的产能扩张计划来应对需求。SK hynix正在建设新的生产设施并增加其最新HBM3E产品的产出。三星正在努力解决其良率问题并恢复竞争地位。美光正在投资美国和日本的扩展HBM生产。但半导体制造能力需要多年才能建成,目前供应与预计需求之间的差距表明,内存将在可预见的未来仍然是AI基础设施的制约因素。

新兴技术如计算快速链接(允许系统在多个处理器之间共享内存池)和研究实验室中开发的新内存架构最终可能缓解约束。但这些解决方案距离大规模商业部署还有多年时间。与此同时,AI行业正在学习基础设施挑战不是关于任何单一组件,而是关于处理器、内存、网络、电源和冷却的复杂相互作用,这些共同决定了什么是可能的以及成本是多少。

本文基于TechCrunch的报道。阅读原文