AI效率可走的一条不同路径

随着AI模型持续变大,行业一直被迫面对一个熟悉的取舍:更大的系统往往带来更广泛的能力,但也需要更多能量、更多内存和更长运行时间。许多控制这些成本的努力,都集中在缩小模型或降低数值精度上。现在,一条不同的研究路线认为,更好的答案也许是围绕大型模型本来就大量具备的一种属性来重设计硬件:零值。

这种属性被称为稀疏性。在许多神经网络中,大量权重和激活值要么完全为零,要么接近零到可以在不明显损失准确度的情况下视作零。原则上,这些接近空白的区域代表着巨大机会。系统可以不再把能量花在那些几乎没有贡献的乘加运算上,而是直接跳过它们。它也可以不再存储长串零值,而是把重点放在真正重要的非零部分。

问题在于,主流计算硬件并不会天然利用这种结构。CPU和GPU擅长的是密集数值计算,在这种计算里,矩阵中的每个位置都被默认认为很重要。稀疏计算更难,因为机器必须知道该跳过什么、如何高效取回相关值,以及如何避免在管理不规则数据上付出的开销大到吞噬收益。

为什么研究者认为整套技术栈都必须改变

斯坦福的工程师表示,要认真对待稀疏性,就需要从整套技术栈进行重构:硬件、底层固件和软件都要改。他们的研究团队报告称,已经开发出一款既能高效处理稀疏工作负载,也能处理传统工作负载的芯片,而不是把稀疏性当作附加在密集计算假设上的笨拙特例。

据该团队称,收益相当可观。在他们评估的工作负载中,这款芯片平均只消耗 CPU 的七十分之一能量,并且平均计算速度快约八倍。具体数值会因工作负载而异,但核心结论是:原生支持稀疏性的设计可以在不迫使行业放弃高能力模型的前提下,带来巨大收益。

如果这一结果能够规模化,其意义远超学术基准测试。AI的未来越来越受制于的不只是算法进展,还有供电能力、散热、碳足迹,以及运行日益庞大的推理系统的成本。任何可信的低能耗计算路径,在战略上都很重要。

稀疏性比小模型提供了什么

稀疏性的吸引力在于,它不一定要求放弃模型规模或性能。更小的模型和更低的精度运算可以降低成本,但通常也会限制能力。稀疏性提出了另一种选择:保留非常大的模型,但避免把算力浪费在贡献最少的部分上。

这在领先公司继续发布庞大系统的背景下尤其重要。文章提到,Meta 最新的 Llama 版本达到了 2 万亿参数,说明规模增长如何迅速放大能耗需求。如果其中很大一部分参数或其激活值在实际使用中几乎不起作用,那么能智能处理它们的硬件就可能在不迫使模型退回小规模的情况下释放效率。

在实践中,收益可能包括:

  • 降低模型训练或推理的能耗
  • 减少稀疏工作负载的运行时间
  • 由于无需存储大块零值而降低内存负担
  • 降低大规模AI部署的碳足迹

这些都不是边际改进。它们直接关系到现代AI的经济性和环境可持续性。

让稀疏计算真正落地的挑战

稀疏性在概念上吸引人已经很多年了,但要利用它却很困难。密集硬件擅长规则性。稀疏数据天生是不规则的。这意味着设计者必须解决索引、路由、调度和内存访问等问题,而当大量数值缺失时,这些问题会变得更加复杂。

这就是为什么斯坦福团队强调整栈设计。若固件和软件仍然假定是密集执行模式,那么单个专用加速器是不够的。工具必须理解稀疏表示,硬件必须高效处理它们,整个系统还必须避免把“跳过零值”变成“在找零值上浪费时间”。

这种系统视角正是这项工作的价值所在。它并没有把稀疏性描述为单一的算法技巧,而是把它视为一种关于AI工作负载如何映射到机器上的架构重思。

为什么这对更广泛的AI建设具有意义

业界对算力的即时需求似乎没有放缓迹象。即便一些专家认为简单扩规模的收益正在递减,公司仍在推进更大的模型和更广泛的部署。这使得能效成为一级问题,而不是次要工程问题。

如果稀疏原生硬件的收益能从实验室走向现实,它可能成为最重要的应对方案之一。它可以在保持先进模型可用的同时,降低功耗和运行时间。这反过来会影响:

  • 数据中心设计和运营成本
  • 大模型规模化服务的可行性
  • 对功耗限制更严格的边缘或嵌入式AI系统
  • 围绕AI增长的气候与基础设施争论

重要的是,它也可能改变未来模型的构建方式。一旦硬件更直接地奖励稀疏性,模型设计者就可能优化架构和训练方法,以暴露更多稀疏结构。

现实但重要的进展

强有力的研究结果与主流采用之间仍有距离。现有AI基础设施深度投资于围绕密集计算构建的GPU和软件生态。新硬件不仅要证明自己能工作,还要证明它能整合、能扩展,并能证明切换成本是值得的。

即便如此,这项研究提出的论点仍难以忽视。如果大型AI模型充满了无需按传统方式处理的数值,那么当前硬件栈就在效率上留下了真实空白。稀疏计算把这种低效变成了设计目标。

在AI进步越来越多地要同时面对能耗限制和基准成绩的时刻,这或许是该领域最重要的工程目标之一。强大AI的未来,也许不取决于消灭大模型,而是最终学会停止计算那些它们根本不使用的部分。

本文基于 IEEE Spectrum 的报道。阅读原文

Originally published on spectrum.ieee.org