OpenAI发布面向大型AI训练集群的MRC网络协议

面向更大型AI集群的新网络层

OpenAI推出了Multipath Reliable Connection，简称MRC，这是一种为大规模AI训练系统设计的网络协议，在这类系统中，GPU之间的延迟可能拖慢整个任务。该公司表示，它与AMD、Broadcom、Intel、Microsoft和NVIDIA共同开发了这一协议，随后又通过Open Compute Project发布了该规范，以便其他运营方也能采用。

此举针对的是前沿模型开发中一个不那么显眼的瓶颈。训练过程依赖于在加速器之间传输海量数据，而一次传输延迟就可能让昂贵的硬件空转等待。OpenAI认为，随着集群规模扩大，拥塞、链路故障和路由问题会频繁到足以使网络设计本身成为决定训练速度和可靠性的核心因素。

MRC要解决什么问题

在对该系统的说明中，OpenAI表示，该协议围绕三个思路构建：用于冗余的多平面高速网络、用于降低核心拥塞的自适应分组喷洒，以及用于规避故障的静态源路由。公司将这些选择描述为一种在提升韧性的同时减少复杂性的方式。

根本问题在于规模。现代训练步骤可能需要在整个超级计算机互连中进行数百万次数据传输。如果网络路径发生拥塞或某个设备故障，这种中断就会向外扩散，并让跨多个GPU的同步工作停滞。OpenAI表示，MRC旨在通过更有效地分配流量，并允许在不依赖更脆弱路由行为的情况下绕过故障，来防止这些问题扩散。

三个核心设计选择

多平面网络旨在提供冗余，同时比某些替代方案使用更少的组件和更少的电力。
自适应分组喷洒将流量分散到不同路径上，以减少网络核心中的热点。
静态源路由用于部署中绕过故障，并彻底避免某些类别的路由故障。

为什么这不只关乎一家公司

OpenAI将此次发布与其更广泛的算力战略以及Stargate规模基础设施的需求联系起来。该公司表示，在关键基础设施层采用共享标准，有助于AI系统在更广泛的合作伙伴生态中更高效地扩展。通过OCP发布该规范，也表明AI集群的网络设计正开始被视为一个共同的行业问题，而不是私有实现细节。

这很重要，因为模型训练的经济性不仅取决于芯片和电力，还取决于运营方能多有效地让集群保持繁忙。一个能够降低抖动并让故障更容易绕开的协议，可能提升大规模部署的利用率，进而影响新模型训练的速度，以及达到既定目标所需建设多少基础设施。

合作伙伴名单也凸显了这一问题已变得多么广泛。随着半导体供应商、云基础设施运营商和系统构建商都参与其中，此次发布表明，AI网络正在成为自身重要的竞争层。OpenAI选择开放规范而非纯粹专有方案，意味着其押注于互操作性和生态采用，如今比把这一层堆栈保持封闭更有价值。

AI & Robotics

Uber 表示正在使用 OpenAI 模型驱动对话式助手和语音功能，帮助司机判断收益机会，并帮助乘客更快完成叫车预订。

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

据报道，Deepseek 和 Core Automation 的融资动作显示，投资者仍在积极押注前沿 AI，资金持续涌向大型模型实验室以及那些专注于后训练和商业化的年轻公司。

DT Editorial AI·May 8, 2026·via the-decoder.com

更大的基础设施信号

这项公告之所以值得注意，并不在于某个单一协议功能，而在于它揭示了AI基础设施压力正在何处累积。多年来，围绕模型扩展的公众讨论一直聚焦于GPU。MRC强调的是下一个层级的约束：一旦加速器数量变得巨大，它们之间的网络就可能决定理论算力是否真的转化为有用工作。

OpenAI实际上是在主张，通往更大、更可靠训练系统的路径，取决于更简单、故障容忍度更高的网络架构。如果MRC在真实部署中的表现与其描述一致，它可能有助于设定未来超大规模AI集群的建设预期。至少，这标志着AI基础设施工业化又迈出了一步，在这一过程中，进步越来越多地来自系统工程，而不仅仅是模型架构。

本文基于OpenAI的报道。阅读原文。

OpenAI及合作伙伴发布MRC，以增强AI训练网络

面向更大型AI集群的新网络层

MRC要解决什么问题

三个核心设计选择

为什么这不只关乎一家公司

Related Articles

Keep Reading

更大的基础设施信号

OpenAI公布首届 ChatGPT Futures 班级，让学生 AI 创作者站上聚光灯

Comments (0)

Singular Bank 的内部 AI 助手展示了应用型金融自动化的未来方向

Uber 正在把实时市场数据转化为面向司机和乘客的 AI 指引

随着 Deepseek 和 Core Automation 追逐更大赌注，AI 融资狂潮持续升温