AI効率に向けた別の道筋

AIモデルが大きくなり続ける中、業界はおなじみのトレードオフに直面してきた。より大規模なシステムは幅広い能力を提供しやすい一方で、より多くの電力、メモリ、実行時間も必要とする。こうしたコストを抑える多くの取り組みは、モデルを小さくすることや数値精度を下げることに集中してきた。これに対し、別の研究は、大規模モデルがもともと豊富に持っている性質、つまりゼロに着目してハードウェアを再設計する方が良いかもしれないと主張している。

その性質はスパース性と呼ばれる。多くのニューラルネットワークでは、大量の重みや活性化値が完全にゼロ、あるいはゼロに極めて近く、精度を大きく損なわずにゼロとして扱える。原理的には、こうしたほぼ空白の領域は巨大な機会を意味する。ほとんど何も生み出さない値の乗算や加算に電力を使う代わりに、それらを飛ばせる。長いゼロ列を保存する代わりに、本当に重要な非ゼロ部分に集中できる。

問題は、主流の計算ハードウェアがその構造を自然には活用できないことだ。CPUやGPUは、行列の各位置が重要だとみなす密な数値計算に強い。スパース計算は難しい。何を飛ばすべきか、関連値をどう効率よく取得するか、不規則なデータを扱うためのオーバーヘッドが大きくなりすぎて利点が消えないようにするにはどうするかを、機械が理解しなければならないからだ。

なぜ研究者はスタック全体の変更が必要だと考えるのか

スタンフォードの研究者たちは、スパース性を本気で活用するには、ハードウェア、低レベルファームウェア、ソフトウェアまで含めたスタック全体の再設計が必要だとしている。彼らの研究グループは、スパースなワークロードと従来型ワークロードの両方を効率よく処理できるチップを開発したと報告している。これは、スパース性を密な計算前提の上に乗せた厄介な例外ではなく、設計の中心に据える考え方だ。

同グループによると、その効果は大きかった。評価したワークロード全体で、このチップはCPUの平均70分の1のエネルギーしか使わず、計算は平均で約8倍速かった。数値はワークロードごとに異なるが、中心的な主張は、スパースネイティブ設計が、業界に高能力モデルの放棄を迫らずに大きな改善をもたらし得るということだ。

この結果がスケールするなら、学術的なベンチマークをはるかに超える意味を持つ。AIの未来は、アルゴリズムの進歩だけでなく、電力供給、冷却、炭素排出、そしてますます巨大化する推論システムの運用コストにも制約されている。消費電力を下げるための信頼できる道筋は、戦略上きわめて重要だ。

スパース性が小型モデルに対して提供するもの

スパース性の魅力は、モデルのサイズや性能を諦める必要がないかもしれない点にある。小型モデルや低精度演算はコストを下げられるが、その分、能力を制約することが多い。スパース性は別の選択肢を示す。つまり、非常に大きなモデルは維持しつつ、貢献の少ない部分に計算を浪費しないようにするという考え方だ。

この発想は、主要企業が巨大なシステムを次々に出し続けている今、特に重要だ。記事によれば、Metaの最新Llamaは2兆パラメータに達しており、規模がどれほど急速に電力需要を増幅するかを示している。もしそれらのパラメータや活性化の大部分が実際の使用では事実上ほとんど意味を持たないなら、それらを賢く扱うハードウェアは、スケールを後退させることなく効率を引き出せる可能性がある。

実際には、次のような利点が考えられる。

  • 学習や推論の消費電力の削減
  • スパースなワークロードの実行時間短縮
  • 大量のゼロを保存しなくてよくなることによるメモリ負担の軽減
  • 大規模AI展開における炭素排出の低減

これらは小さな改善ではない。現代AIの経済性と環境持続性に直接関わる。

スパース計算を現実にする難しさ

スパース性は何年も前から概念的には魅力的だったが、実際に活用するのは難しい。密なハードウェアは規則性の上に成り立つ。スパースデータは本質的に不規則だ。つまり設計者は、インデックス付け、ルーティング、スケジューリング、メモリアクセスといった問題を解かなければならず、値が欠けていることが多いほど、それらはさらに複雑になる。

だからこそ、スタンフォードのチームはスタック全体の設計を強調している。ファームウェアやソフトウェアが依然として密な実行パターンを前提にしているなら、単一の専用アクセラレータだけでは不十分だ。ツールはスパース表現を理解し、ハードウェアはそれを効率的に処理し、システム全体は「ゼロを飛ばす」を「ゼロの場所を探すのに時間を使う」にしてはならない。

このシステム視点こそ、この研究の注目点だ。スパース性を単なるアルゴリズム上の小技としてではなく、AIワークロードを機械にどう写像するかというアーキテクチャ上の再考として扱っている。

なぜAIの大規模展開に関わるのか

業界の即時的な計算需要は、今のところ衰える気配がない。単純なスケーリングが逓減しつつあると指摘する専門家がいても、企業はより大きなモデルとより広い展開を追求し続けている。そうなると、エネルギー効率は二次的な工学課題ではなく、最重要課題になる。

スパースネイティブなハードウェアは、実験室を超えて効果が出るなら、最も重要な対応策の一つになり得る。高度なモデルの実用性を保ちながら、消費電力と実行時間を下げる道を提供できるからだ。それは次のようなものに影響するかもしれない。

  • データセンター設計と運用コスト
  • 大規模モデルをスケールして提供する実現性
  • より厳しい電力制約を持つエッジや組み込みAIシステム
  • AI成長をめぐる気候やインフラの議論

重要なのは、それが将来のモデルの作り方にも影響し得ることだ。ハードウェアがスパース性をより直接的に評価するようになれば、モデル設計者は、より多くのスパース性を引き出すようにアーキテクチャや学習方法を最適化するだろう。

現実的だが重要な進展

強い研究結果と主流採用の間には、まだ隔たりがある。既存のAIインフラは、密な計算を前提とするGPUとソフトウェアエコシステムに深く投資している。新しいハードウェアは、動作することだけでなく、統合でき、拡張でき、切り替えコストに見合うことを示さなければならない。

それでも、この研究から出てくる主張は無視しがたい。大規模AIモデルに、従来の方法で処理する必要のない値が大量に含まれているなら、現在のハードウェアスタックは本当の効率を取りこぼしている。スパース計算は、その非効率を設計対象に変える。

AIの進歩がベンチマークスコアと同じくらいエネルギー制約で測られるようになった今、それはこの分野で最も重要な工学目標の一つかもしれない。強力なAIの未来は、大規模モデルを消し去ることよりも、そもそも使っていないものを計算しない術を身につけることにかかっているのかもしれない。

この記事は IEEE Spectrum の報道に基づいています。元記事を読む

Originally published on spectrum.ieee.org