会話がGPUからメモリへと移行している

過去数年間、AIインフラストラクチャのコストに関する議論は、1つのトピック:Nvidia GPUに支配されてきました。グラフィックスプロセッシングユニットの希少性、価格設定、および配分は、テクノロジー業界全体のヘッドライン、投資決定、および企業戦略を駆動してきました。しかし、業界がAIインフラストラクチャの経済学について考える方法に、より静かな転換が起こっています。ますます、処理能力ではなくメモリが、AIシステムのパフォーマンスとコストの制約要因として浮上しています。

この動きは、現代のAIモデルが実際にどのように動作するかを調べるときに直感的な意味があります。大規模言語モデルは、単に答えを計算するのではなく、各リクエストを処理するために、膨大な量のデータを非常に高速でアクセス可能なアクティブメモリに保持する必要があります。モデルの重み(その知識と能力をコード化する数値パラメーター)は、推論が開始される前にメモリに読み込まれる必要があります。数百億から数兆のパラメーターを持つフロンティアモデルの場合、これらの重みを保持するために必要なメモリは、従来のコンピューティングシステムが提供するように設計されたものをはるかに上回ります。

高帯域幅メモリ:重要なコンポーネント

AIインフラストラクチャの中心となっている特定のタイプのメモリは、高帯域幅メモリ(HBM)です。コンシューマーコンピューターに見られる標準的なDRAMとは異なり、HBMは複数層のメモリチップを垂直に積み重ね、非常に幅広いデータバスで接続し、従来のメモリよりも数桁高いデータ転送速度を実現します。この速度は重要です。NvidiaのH100やH200 GPUのようなAIアクセラレーターは、標準的なメモリが配信できるよりも高速でデータを処理できるためです。HBMがなければ、これらのプロセッサーはほとんどの時間をデータを待つのに費やし、計算能力をほぼ無用にしてしまいます。

HBMは高度なパッケージング技術を使用してAIアクセラレーターに物理的に結合され、メモリと処理が緊密に結合された統合モジュールを作成します。この統合は、AIワークロードに必要な帯域幅を提供しますが、サプライチェーンの依存性も作成します。配送されるすべてのAIアクセラレーターは、対応するHBM配分が必要であり、HBMの生産能力は世界中の3つの製造業者に集中しています。

3社のオリゴポリー

HBMの世界的な供給は、SK hynix、Samsung、Micronの3社によって管理されています。南韓の半導体製造企業であるSK hynixは、現在市場を支配しており、Nvidiaの主要なHBMサプライヤーです。世界最大のメモリチップ企業であるSamsungは、HBM生産での歩留まり問題で苦労しており、SK hynixのこの重要なセグメントでの市場シェアを大幅に失っています。アメリカのメモリ製造企業であるMicronは競争力のあるHBM製品で地盤を獲得していますが、韓国の競合企業よりも小さい規模で運営しています。

この集中供給構造は、HBM製造業者に大きな価格決定力を作成し、AIインフラストラクチャ企業に脆弱性をもたらします。需要が供給を上回る場合、過去2年間で一貫して起こっています。価格は上昇し、配分は直接的な調達プロセスではなく、戦略的な交渉になります。AIデータセンターを構築する企業は、計画された展開に必要なメモリを確保できるようにするために、HBM約束を事前に確保する必要があり、プレミアム価格で長期供給契約に署名することが多いです。

経済学は顕著です。HBMはAIアクセラレーターモジュールの総コストの30~40%を表すことができ、この割合はHBM価格がより広いセミコンダクター市場よりも速く上昇しているため、増加しています。新しいデータセンターで数千のAIアクセラレーターを展開する企業の場合、メモリ法案だけで数億ドルに達することができます。

需要がなぜ成長し続けるのか

HBMとAIグレードのメモリをより広く需要を強化するために、複数のトレンドが収束しています。最も明白なのは、フロンティアAIモデルのサイズの継続的な成長です。新世代のフロンティアAIモデルは、その前身よりも著しく大きい傾向があり、そのパラメーターを保存するために相応に多くのメモリが必要です。しかし、モデルサイズは方程式の一部にすぎません。

推論需要は、おそらくトレーニングよりもメモリ消費のより重要なドライバーです。モデルのトレーニングは、有限の期間にわたって大量の計算リソースを必要とする1回(または定期的)のプロセスですが、推論(モデルを実際に実行してユーザーリクエストに対応するプロセス)は継続的でありユーザー採用に合わせてスケーリングします。すべてのチャット相互作用、すべてのコード補完、すべての画像生成リクエストは、モデルの重みをメモリに読み込み、処理期間中それをそこに保持する必要があります。

AIアプリケーションが増殖し、ユーザー採用が増加するにつれて、業界全体にわたる総推論需要は指数関数的に増加しています。企業はカスタマーサービス、ソフトウェア開発、コンテンツ作成、データ分析、および他の数百のアプリケーションにモデルを展開しており、それぞれ継続的なメモリ需要を生成しています。これらのワークロードをすべて同時に処理するために必要な総メモリは、現在、世界的なHBM生産能力の重要な部分を表しています。

コンテキストウィンドウの拡張は別の要因です。AnthropicのClaudeやGoogleのGeminiのようなモデルは、100万トークン以上のコンテキストウィンドウを提供しており、単一のリクエストで膨大な量の入力テキストを処理できることを意味しています。これらの大規模なコンテキストを処理するには、処理パイプライン全体を通じてメモリに注意状態と中間計算を保存する必要があり、リクエストごとのメモリ消費に追加されます。

インフラストラクチャ計画への波及効果

メモリ制約は、AIインフラストラクチャの決定に影響を与え始めています。これは2年前でも思っていないようなものでした。データセンターアーキテクトは、メモリプロビジョニングを主要な制約としてシステムを設計しており、事後的な考慮ではなく。クラウドプロバイダーは、AIの推論ワークロード専用にメモリ最適化インスタンスタイプを作成しています。ハードウェア企業は、より低いコストで高容量または帯域幅を提供できる小説なメモリテクノロジーを探索しています。

メモリの課題はモデル開発の決定にも影響します。一部のAI実験室は、能力を犠牲にすることなく、モデルのメモリフットプリントを削減するための技術に大きく投資しています。これには、モデルの重みの数値精度を低減する量子化と、各リクエストに対するモデルのパラメーターの部分集合のみを起動する混合エキスパートアーキテクチャが含まれます。これらの技術は単なる学術的な運動ではありません。それらは、メモリが展開経済学に課す実用的な制約への直接的な応答です。

より広いAIエコシステムの場合、GPUからメモリへの関心の転換は、実際に規模でのAI展開のコストと実行可能性を決定するものについての理解の成熟を表しています。GPU不足の物語は、完全には解決されていませんが、生産能力の増加とAMDからの競合他社および主要なクラウドプロバイダーからのカスタムシリコンの参入により、部分的に対処されています。対照的に、メモリは容量拡張の長いリードタイムと競争上の代替案が少なく、より持続的で構造的に困難な制約になります。

次に何が来るのか

メモリ企業は需要に対応して、雄大な容量拡張計画で対応しています。SK hynixは新しい生産施設を構築し、最新のHBM3E製品の出力をランプアップしています。Samsungは歩留まりの問題を解決し、競争上の地位を回復するために働いています。Micronは米国と日本の両方でのHBM生産の拡張に投資しています。しかし半導体製造容量の構築には数年かかり、現在の供給と予測需要の間のギャップは、メモリが予見可能な将来のAIインフラストラクチャの制約要因であり続けることを示唆しています。

Compute Express Linkのような新興技術。複数のプロセッサー間でメモリプールを共有できるようにすることができ、研究所で開発されている新しいメモリアーキテクチャは、最終的に制約を緩和する可能性があります。しかし、これらのソリューションは規模での商用展開から何年も離れています。その間、AI業界は、インフラストラクチャの課題が単一のコンポーネントではなく、プロセッサー、メモリ、ネットワーク、電力、および冷却が一緒に何が可能でありどの時点での複雑な相互作用であることを学んでいます。

この記事はTechCrunchのレポートに基づいています。元の記事を読む