AI基础设施竞争的核心芯片实验室

在亚马逊宣布向OpenAI投资500亿美元后不久,AWS邀请TechCrunch进行了一次罕见的私人参观,访问了其Trainium芯片开发设施——这一硬件运营已经悄然成为AI基础设施的主要力量,赢得了行业内一些最苛刻客户的青睐。

由Annapurna Labs(2015年被亚马逊收购)开发的Trainium芯片系列,最初被视为AWS的成本降低方案:为亚马逊自有服务提供更便宜的训练计算,减少对Nvidia昂贵GPU的依赖。但在2025年和2026年,情况发生了变化。Anthropic、OpenAI和据报道的Apple都已将大量工作负载迁移到Trainium,不仅仅是出于成本考虑,还因为Nvidia供应受限产品无法轻易满足的能力和可用性原因。

Trainium有什么不同之处

第二代Trainium芯片为大规模Transformer训练而设计,相比Nvidia的GPU中心设计提供了不同的架构方法。Trainium不是将图形硬件改用于矩阵运算,而是专为主导现代AI训练的特定计算模式而设计:大规模矩阵乘法、注意力机制以及同步跨越数千个芯片的梯度的全归约通信。

参观中的AWS工程师描述了Trainium 2的自定义互连架构,它以比竞争设计低得多的延迟连接芯片。对于跨越数万个芯片的训练运行,通信开销通常是限制因素——是决定集群训练效率如何,还是花费大部分时间等待梯度同步的瓶颈。亚马逊在这一结构层面的投资已经在多芯片扩展效率上带来了收益。

Anthropic和OpenAI的关系

Anthropic对Trainium的深度承诺有据可查——该公司与AWS签署了标志性的多年协议,并已在亚马逊定制硅芯片上大幅训练了多个版本的Claude模型。更新的是OpenAI的关系,它与500亿美元投资一同正式确立,涉及OpenAI在Trainium上运行培训和推理工作负载,规模之大18个月前似乎不可能实现,考虑到OpenAI历史上与微软Azure基础设施的一致性。

Apple的连接据报道涉及设备上和云AI功能的推理工作负载——这是一个功耗效率和单位推理成本非常关键的市场,特别是在Apple的规模上。

对Nvidia主导地位的影响

主要AI公司在Trainium上的集中代表了迄今为止对Nvidia在AI计算中GPU垄断地位的最可信威胁。之前的竞争者——Google的TPU、Cerebras的晶圆级芯片、Graphcore的IPU——捕获了利基工作负载,但从未以这种规模将旗舰训练运行从Nvidia硬件上拉走。

Nvidia的回应是加快自己的路线图。现已大规模生产的Blackwell架构在训练吞吐量方面提供了实质性改进。但供应约束仍然是一个挑战,而AWS能够快速配置几乎无限的Trainium容量的能力——这是拥有自己的代工关系和供应链的函数——为需要快速扩展的客户提供了结构性优势。

对于更广泛的行业,可信Nvidia替代品的出现可能会随着时间推移压低AI计算成本,即使计算消耗的绝对规模继续增长。

本文基于TechCrunch的报道。阅读原始文章

Originally published on techcrunch.com