AI基础设施最大的低效之一不是计算,而是热量
根据介绍伊利诺伊大学厄巴纳-香槟分校研究人员新工作的原始材料,数据中心在2025年消耗了估计485太瓦时的电力,其中约30%用于制冷而不是计算。随着AI系统推动芯片功率密度不断上升,机架级部署变得更热、更密集、运行成本更高,这部分额外开销已越来越难以忽视。
一种围绕3D打印纯铜板构建的新型芯片直冷方案,正试图直接解决这一问题。研究人员称,他们的技术可将整个数据中心中与制冷相关的耗电比例从约30%降至仅1.1%。
如果这一数字在实际中成立,那将是AI基础设施领域正在出现的更具影响力的硬件效率提升之一。
为什么制冷如今成了战略瓶颈
现代加速器消耗巨大的电力,而按照电子学的基本物理规律,它们几乎会把同等数量的能量以热的形式散发出去。原文提到一颗NVIDIA GB200芯片运行功率可达1,200瓦。把这一数字乘以成千上万甚至数十万台设备,热管理挑战就会成为设施经济性的核心问题。
这也是为什么制冷不再只是后台工程细节。它影响数据中心设计、能源采购、选址、正常运行时间,以及更高密度计算集群能够部署的速度。随着AI需求增长,制冷限制正日益决定哪些设施能够被建造出来。
因此,任何有望带来数量级改善的技术都值得认真关注,尤其是当它能够集成到现有的芯片直冷架构中,而不需要完全新类型的设施时。
新系统改变了什么
这项报道中的进展将数学设计算法与增材制造结合,生产出性能优于传统冷板的纯铜冷却板。最重要的细节不只是材料本身,而是这种方法能够创造的内部几何结构。
据原文所述,显微镜图像显示板面上有微小的鳍片状结构。这类精细特征可以通过增加有效表面积并控制冷却液在最热点区域的流动方式,显著提升传热效率。
传统制造会限制工程师能够在冷却组件内部构建的形状。通过把计算设计与3D打印结合,研究人员试图弥合热模型认为最优的方案与实际制造技术能够生产出来的方案之间的差距。
其结果是一种为高功率芯片现实需求而设计的冷板架构,而不是沿用旧有热管理假设后做出的调整。
为何宣称的节能幅度如此之大
头条中的数字来自降低移除热量的能源成本,而不是降低芯片自身功耗。在典型的大型数据中心中,制冷系统会通过泵、冷水机组、空气处理和其他支撑基础设施消耗电力。如果能够在芯片层面更高效地提取热量,整个热管理链条所需的工作就会减少。
芯片直液冷本就具有吸引力,因为它绕过了空气冷却中的许多低效环节。而改进冷板本身会让这种方案更强大。研究人员表示,新冷板可将制冷的电力占比降至约1.1%,相较当前常态是一个巨大的改进。
对运营方而言,这意味着更低的运营成本、更好的电能利用效率,以及在能源受限环境中部署计算能力的更多空间。
为什么这不仅仅关乎实验室
AI基础设施正越来越多地与能源政策、公用事业规划和公众审视发生碰撞。数据中心扩张正在拉紧本地电网,增加脱碳难度,并促使企业寻求新的供电策略。因此,制冷层面的效率提升,其意义远超普通的组件改良。
如果制冷变得极其高效,运营方或许就能在同样的功率预算下提取出更多有用计算。这可能延缓部分容量瓶颈,并让先进设施更容易选址于电力供应或电网接入受限的地区。
它还可能减少那种非计算类的能源惩罚,这种惩罚让AI扩张显得格外耗电。三分之一的功率都花在热量开销上,这显然是一个诱人的目标。削减其中大部分会改变讨论的方向。
仍然存在的不确定性
原始材料将这项工作描述为一项科学进展,而不是已经部署的商业产品。这意味着规模化、耐久性、可制造性、成本以及与量产数据中心系统的兼容性,仍然都是开放问题。
硬件突破在原型或子系统层面常常看起来最强,但一旦进入供应链、维护、冷却液化学和长期可靠性的复杂现实,情况就会变得更棘手。纯铜增材制造也是一项专业能力,广泛部署还取决于在大批量条件下的经济性是否成立。
尽管如此,方向很明确。制冷已经成为一级计算问题,而具有几何感知、由制造能力支持的热设计,正成为一条可信的前进路径。
更大的图景
AI热潮把人们的注意力推向了模型、芯片和电力合同。但维持这些芯片运行的物理系统,最终可能决定这个行业究竟能负担多少计算量。热管理过去被视为基础设施管道,如今已成为前沿的一部分。
这种铜板方案之所以有吸引力,是因为它用一套务实工具直面一个硬约束:更好的设计、更好的制造,以及在最关键处实现更好的传热。它并不承诺让计算免费,也不会抹去数据中心的能源需求。它承诺的是更有价值的东西:一种让这些能量在热管理上少被浪费很多的方法。
在短期内,这正是超大规模云服务商、云运营商和AI基础设施建设者正在寻找的创新。
本文基于 New Atlas 的报道。阅读原文。
Originally published on newatlas.com



