探访亚马逊Trainium实验室：与Nvidia竞争的AI芯片

AI基础设施竞争的核心芯片实验室

在亚马逊宣布向OpenAI投资500亿美元后不久，AWS邀请TechCrunch进行了一次罕见的私人参观，访问了其Trainium芯片开发设施——这一硬件运营已经悄然成为AI基础设施的主要力量，赢得了行业内一些最苛刻客户的青睐。

由Annapurna Labs（2015年被亚马逊收购）开发的Trainium芯片系列，最初被视为AWS的成本降低方案：为亚马逊自有服务提供更便宜的训练计算，减少对Nvidia昂贵GPU的依赖。但在2025年和2026年，情况发生了变化。Anthropic、OpenAI和据报道的Apple都已将大量工作负载迁移到Trainium，不仅仅是出于成本考虑，还因为Nvidia供应受限产品无法轻易满足的能力和可用性原因。

Trainium有什么不同之处

第二代Trainium芯片为大规模Transformer训练而设计，相比Nvidia的GPU中心设计提供了不同的架构方法。Trainium不是将图形硬件改用于矩阵运算，而是专为主导现代AI训练的特定计算模式而设计：大规模矩阵乘法、注意力机制以及同步跨越数千个芯片的梯度的全归约通信。

参观中的AWS工程师描述了Trainium 2的自定义互连架构，它以比竞争设计低得多的延迟连接芯片。对于跨越数万个芯片的训练运行，通信开销通常是限制因素——是决定集群训练效率如何，还是花费大部分时间等待梯度同步的瓶颈。亚马逊在这一结构层面的投资已经在多芯片扩展效率上带来了收益。

Anthropic和OpenAI的关系

Anthropic对Trainium的深度承诺有据可查——该公司与AWS签署了标志性的多年协议，并已在亚马逊定制硅芯片上大幅训练了多个版本的Claude模型。更新的是OpenAI的关系，它与500亿美元投资一同正式确立，涉及OpenAI在Trainium上运行培训和推理工作负载，规模之大18个月前似乎不可能实现，考虑到OpenAI历史上与微软Azure基础设施的一致性。

Apple的连接据报道涉及设备上和云AI功能的推理工作负载——这是一个功耗效率和单位推理成本非常关键的市场，特别是在Apple的规模上。

对Nvidia主导地位的影响

主要AI公司在Trainium上的集中代表了迄今为止对Nvidia在AI计算中GPU垄断地位的最可信威胁。之前的竞争者——Google的TPU、Cerebras的晶圆级芯片、Graphcore的IPU——捕获了利基工作负载，但从未以这种规模将旗舰训练运行从Nvidia硬件上拉走。

Nvidia的回应是加快自己的路线图。现已大规模生产的Blackwell架构在训练吞吐量方面提供了实质性改进。但供应约束仍然是一个挑战，而AWS能够快速配置几乎无限的Trainium容量的能力——这是拥有自己的代工关系和供应链的函数——为需要快速扩展的客户提供了结构性优势。

对于更广泛的行业，可信Nvidia替代品的出现可能会随着时间推移压低AI计算成本，即使计算消耗的绝对规模继续增长。

本文基于TechCrunch的报道。阅读原始文章。

Originally published on techcrunch.com

探访亚马逊Trainium实验室：赢得AI巨头青睐的芯片

AI基础设施竞争的核心芯片实验室

Trainium有什么不同之处

Anthropic和OpenAI的关系

对Nvidia主导地位的影响

Related Articles

Comments (0)

合规初创公司 Delve 被指控'虚假合规'欺诈

iPhone 18 Pro 可能捆绑专业相机软件

DOGE渗透美国核安全监管机构

USB4 NVMe 外壳为外部存储带来桌面级速度