AI基盤インフラストラクチャ競争の中心にあるチップラボ

Amazonが OpenAIへの500億ドルの投資を発表してから間もなく、AWSはTechCrunchを同社のTrainium チップ開発施設の稀な非公開ツアーへ招待しました—この硬件操業は、AI基盤インフラストラクチャ内で静かに主要な力となり、業界で最も要求が厳しい顧客の幾人かを獲得しました。

Annapurna Labs(2015年にAmazonに買収)によって開発されたTrainium チップラインは、当初AWSのコスト削減策と見なされていました:Amazonの独自サービスのための安いトレーニング計算、Nvidiaの高価なGPUへの依存を減らすこと。しかし2025年と2026年に、何かが変わりました。AnthropicとOpenAI、そして報じられるところではAppleは、コストの理由だけでなく、Nvidiaの供給限定製品が容易に満たすことができない能力と可用性の理由でTrainiumに重大なワークロードを移動させました。

Trainiumをユニークにするもの

大規模なTransformerトレーニング向けに構築された第2世代Trainium チップは、Nvidiaの GPU中心設計とは異なるアーキテクチャアプローチを提供しています。グラフィックスハードウェアを行列演算に流用するのではなく、Trainiumは現代的なAIトレーニングを支配する特定の計算パターンのために目的設計されています:大規模な行列乗算、注意メカニズム、および数千のチップ全体にわたる勾配を同期させるオール・リダクス通信。

ツアーに参加したAWSエンジニアは、競争力のあるデザインより大幅に低いレイテンシーでチップをリンクするTrainium 2のカスタムインターコネクトファブリックについて説明しました。数万のチップにわたるトレーニング実行の場合、通信オーバーヘッドはしばしば制約となるボトルネック—クラスターが効率的にトレーニングするか、ほとんどの時間を勾配同期を待つのに費やすかを決定するボトルネック。Amazonがこのファブリック層への投資は、マルチチップスケーリング効率で収益を上げました。

AnthropicとOpenAIの関係

TrainiumへのAnthropicの深い取り組みは十分に文書化されています—同社はAWSと歴史的な複数年契約を締結し、Amazonのカスタムシリコン上で複数のバージョンのClaudeモデルを大幅にトレーニングしました。より新しいのはOpenAIの関係で、500億ドルの投資と並行して正式化され、OpenAIがTrainium上でトレーニングと推論ワークロードを実行することに関与します。Microsoft の Azure インフラストラクチャとのOpenAIの歴史的調整を考えると、18ヶ月前にはありそうもない規模で。

Appleの接続は、オンデバイスとクラウドAI機能の推論ワークロードに関与しているとのことです—Appleのスケールで電力効率と推論当たりのコストが非常に重要な市場。

Nvidiaの支配の含意

Trainiumへの主要なAI企業の集中は、これまでに出現したAIコンピューティングにおけるNvidiaのGPU独占への最も信頼できる脅威を表しています。以前の課題—GoogleのTPU、CerebrasのWaferスケールチップ、GraphcoreのIPU—はニッチなワークロードをキャプチャしましたが、この規模でNvidiaハードウェアからのフラグシップトレーニング実行を引き出すことはできませんでした。

Nvidiaの応答は独自のロードマップを加速することでした。現在大量生産中のBlackwell アーキテクチャは、トレーニングスループットに大幅な改善をもたらします。しかし、供給制約は依然として課題であり、Amazonが独自のfab関係とサプライチェーンを所有するための機能である、AWSがほぼ無制限のTrainium容量を迅速にプロビジョニングする能力は、迅速にスケールする必要があるお客様に構造的な利点を提供します。

より広い業界では、信頼できるNvidia代替案の出現は、計算消費の絶対規模が成長し続けても、時間の経過とともにAI計算コストを圧迫する可能性があります。

この記事はTechCrunchの報道に基づいています。オリジナル記事を読む