亚马逊称其云基础设施内部取得网络突破
亚马逊表示,它在数据中心网络方面取得了重大进展,并且自2025年末起已开始在其设施中部署这项技术。根据该公司说法,这一新设计既能提升数据传输速度,又能降低能耗;随着云服务运营商竞相建设更大、更快的基础设施,这种组合可能会变得更加重要。
该系统基于亚马逊所称的“准随机”架构。它并非完全依赖传统、结构高度固定的网络布局,而是将有序设计与更随机的网络图所带来的性能优势结合起来。研究人员对随机网络已研究了几十年,但亚马逊表示,真正的挑战在于如何让它们在大规模环境下可靠且经济地运行。
从理论到生产
该公司在上个月发表的一篇题为 RNG: Flat Datacenter Networks at Scale 的论文中详细介绍了这一方法。RNG 代表 resilient network graphs。亚马逊称,这些图既不是完全结构化的,也不是完全随机的,而是旨在在保持弹性的同时,减少传统拓扑可能带来的瓶颈。
AWS 网络工程副总裁 Matt Rehder 表示,这一设计实际上让网络变得更平坦。这一点很重要,因为许多数据中心系统长期以来依赖 fat-tree 结构,流量需要穿过多个垂直层级。将这种布局压平,可以减少瓶颈,并提升数据在大型机器集群中的流动效率。
硬件部分:ShuffleBox
亚马逊还表示,它设计了一种名为 ShuffleBox 的新设备,使这种架构在物理世界中变得可行。该公司称,这一设备可自动整理这种网络所需的布线。这一点很关键,因为随机或半随机网络图在纸面上看起来很有吸引力,但历史上,物理布线的难度一直让大规模部署变得困难。
亚马逊认为,正是新的图设计与新的布线硬件相结合,才使其从学术上的可能性走向了实际生产使用。消息来源引用的一位外部专家将这一现实部署称为“remarkable”,凸显了这类问题对行业而言有多么棘手。
重点并非生成式 AI
亚马逊表述中一个引人注目的地方,是它没有强调什么。该公司表示,这项工作并不是为生成式 AI 训练基础设施直接站台。Rehder 说,AI 训练工作负载的协同程度更高、由中央统一编排,因此并不像 RNG 所适合的那类随机图模式。
相反,亚马逊将这项设计视为提升其核心数据中心架构效率的一种方式,以应对日常云需求。这一区分很重要。尽管 AI 已经主导了基础设施投资叙事,但云平台的经济价值仍然很大程度上依赖于大规模通用计算、存储和网络的效率。
这为何对云市场重要
数据中心运营商正同时面临提升性能、控制电力消耗以及保持扩张成本可控的压力。若一种网络设计能够在降低能耗的同时提供更高吞吐量,那么它就可能带来显著的运营优势,尤其是在可以推广到庞大现有基础设施的情况下。
亚马逊表示,这项技术自去年底起一直在悄然部署,说明公司在公开讨论之前,已经认为该系统足够成熟可以投入使用。如果结果经得起检验,这种方法可能会影响超大规模云厂商对网络架构的思考,不再局限于既有的 fat-tree 模型。
一场关于基础设施创新能否继续隐形的测试
云竞争通常围绕芯片、模型和软件服务展开,但网络仍然是现代计算的基础约束之一。亚马逊的公告提醒人们,基础设施中一些最大的战略收益,来自以新方式解决老系统问题。
目前,该公司的主张很明确:一种弹性强、近似随机的网络设计,加上新硬件,能够在生产环境中扩展,并同时提升速度与能效。如果竞争对手也做出类似工作,网络可能会成为下一阶段云基础设施竞争中更显眼的战场。
本文基于 Wired 的报道。阅读原文。
Originally published on wired.com



