Das Gespräch verlagert sich von GPUs auf Speicher

In den letzten Jahren wurde die Erzählung über KI-Infrastrukturkosten von einem einzigen Thema dominiert: Nvidia GPUs. Die Knappheit, Preisgestaltung und Zuteilung von Grafikverarbeitungseinheiten haben Schlagzeilen, Investitionsentscheidungen und Unternehmensstrategie in der gesamten Technologieindustrie geprägt. Aber es gibt einen stilleren Wandel in der Art und Weise, wie die Industrie über die Wirtschaft der KI-Infrastruktur denkt. Zunehmend wird der Speicher, nicht die Verarbeitungsleistung, zur bindenden Beschränkung für KI-Systemleistung und -kosten.

Diese Dynamik macht intuitiv Sinn, wenn man untersucht, wie moderne KI-Modelle tatsächlich funktionieren. Ein großes Sprachmodell berechnet nicht einfach nur Antworten. Es muss riesige Datenmengen im aktiven Speicher halten, auf extrem hohe Geschwindigkeiten zugänglich, um jede Anfrage zu verarbeiten. Die Modellgewichte—die numerischen Parameter, die sein Wissen und Fähigkeiten kodieren—müssen vor Beginn der Inferenz in den Speicher geladen werden. Für Grenzmodelle mit hunderten von Milliarden oder sogar Billionen von Parametern übersteigt der erforderliche Speicher, um diese Gewichte zu halten, bei weitem das, was herkömmliche Computersysteme liefern sollten.

High-Bandwidth-Memory: Die kritische Komponente

Der spezifische Speichertyp, der zur Mitte der KI-Infrastruktur geworden ist, ist High-Bandwidth-Memory, bekannt als HBM. Anders als der Standard-DRAM in Verbrauchern-Computern stapelt HBM mehrere Schichten von Speicherchips vertikal und verbindet sie mit einem äußerst breiten Datenbus, was Datenübertragungsraten ermöglicht, die um Größenordnungen schneller als herkömmliche Speicher sind. Diese Geschwindigkeit ist unverzichtbar, da KI-Beschleuniger wie Nvidias H100- und H200-GPUs Daten viel schneller verarbeiten können als Standard-Speicher liefern kann. Ohne HBM würden diese Prozessoren die meiste Zeit auf Daten warten, was ihre Rechenfähigkeiten weitgehend nutzlos macht.

HBM ist physisch an den KI-Beschleuniger mit fortschrittlichen Verpackungstechniken gebunden und erzeugt ein integriertes Modul, in dem Speicher und Verarbeitung eng miteinander verbunden sind. Diese Integration bietet die Bandbreite, die für KI-Workloads erforderlich ist, erzeugt aber auch eine Abhängigkeit der Lieferkette: Jeder versendete KI-Beschleuniger erfordert eine entsprechende HBM-Zuteilung, und die HBM-Produktionskapazität konzentriert sich weltweit auf nur drei Hersteller.

Ein Oligopol von drei Unternehmen

Die globale HBM-Versorgung wird von drei Unternehmen kontrolliert: SK hynix, Samsung und Micron. SK hynix, der südkoreanische Halbleiterhersteller, dominiert derzeit den Markt und ist der Hauptlieferant von HBM für Nvidia. Samsung, obwohl das weltweit größte Speichermikrounternehmen nach Gesamtumsatz, hat mit Ausbeute-Problemen in der HBM-Produktion gekämpft und verlor einen großen Marktanteil an SK hynix in diesem kritischen Segment. Micron, der amerikanische Speicherhersteller, hat mit konkurrenzfähigen HBM-Produkten an Boden gewonnen, arbeitet aber auf einem kleineren Maßstab als seine koreanischen Konkurrenten.

Diese konzentrierte Angebotsstruktur schafft erhebliche Preismacht für HBM-Hersteller und Anfälligkeit für KI-Infrastrukturunternehmen. Wenn die Nachfrage das Angebot übersteigt—wie es in den letzten zwei Jahren konsequent geschehen ist—steigen die Preise, und die Zuteilung wird zu strategischen Verhandlungen statt zu direktem Beschaffungsprozess. Unternehmen, die KI-Rechenzentren bauen, müssen sich HBM-Verpflichtungen im Voraus sichern und unterzeichnen häufig langfristige Lieferverträge zu Prämienpreisen, um sicherzustellen, dass sie den für ihre geplanten Bereitstellungen erforderlichen Speicher erhalten können.

Die Wirtschaft ist beeindruckend. HBM kann 30 bis 40 Prozent der Gesamtkosten eines KI-Beschleuniger-Moduls ausmachen, ein Anteil, der gewachsen ist, da HBM-Preise schneller steigen als der breitere Halbleitermarkt. Für ein Unternehmen, das Tausende von KI-Beschleunigern in einem neuen Rechenzentrum bereitstellt, kann die alleinige Speicherrechnung hunderte Millionen Dollar erreichen.

Warum die Nachfrage weiter wächst

Mehrere Trends konvergieren, um die Nachfrage nach HBM und breiter KI-kompatibler Speicher zu intensivieren. Das Offensichtlichste ist das kontinuierliche Wachstum der Modellgrößen. Jede neue Generation von Grenz-KI-Modellen ist tendenziell erheblich größer als ihre Vorgänger und erfordert proportional mehr Speicher, um ihre Parameter zu speichern. Aber Modellgröße ist nur ein Teil der Gleichung.

Inferenznachfrage ist möglicherweise ein signifikanterer Treiber des Speicherverbrauchs als Training. Während das Trainieren eines Modells ein einmaliger (oder periodischer) Prozess ist, der massive Rechenressourcen für einen begrenzten Zeitraum erfordert, ist Inferenz—der Prozess der tatsächlichen Ausführung des Modells zur Beantwortung von Benutzeranfragen—kontinuierlich und skaliert mit der Benutzerübernahme. Jede Chat-Interaktion, jede Code-Vervollständigung, jede Anfrage zur Bildgenerierung erfordert das Laden von Modellgewichten in den Speicher und das Halten dort während der Verarbeitung.

Während sich KI-Anwendungen ausbreiten und die Benutzerübernahme wächst, wächst die aggregierte Inferenznachfrage in der gesamten Industrie exponentiell. Unternehmen setzen Modelle im Kundenservice, in der Softwareentwicklung, Inhaltserstellung, Datenanalyse und hunderten anderen Anwendungen ein, jede mit kontinuierlicher Speichernachfrage. Der Gesamtspeicher, der erforderlich ist, um alle diese Workloads gleichzeitig zu bedienen, stellt jetzt einen bedeutenden Teil der globalen HBM-Produktionskapazität dar.

Kontextfenster-Erweiterung ist ein weiterer Faktor. Modelle wie Claude von Anthropic und Gemini von Google bieten jetzt Kontextfenster von einer Million Token oder mehr, was bedeutet, dass sie riesige Mengen an Eingabetext in einer einzelnen Anfrage verarbeiten können. Die Handhabung dieser großen Kontexte erfordert das Speichern von Aufmerksamkeitszuständen und Zwischenberechnungen im Speicher über die gesamte Verarbeitungspipeline, was zum Speicherverbrauch pro Anfrage beiträgt.

Welleneffekte auf die Infrastrukturplanung

Speicherbeschränkungen beginnen, KI-Infrastrukturentscheidungen auf Weise zu beeinflussen, die vor nur zwei Jahren unwahrscheinlich schienen. Rechenzentrum-Architekten entwerfen Systeme mit Speicherbereitstellung als primäre Beschränkung statt als nachträgliche Überlegung. Cloud-Anbieter erstellen speicher-optimierte Instanztypen speziell für KI-Inferenz-Workloads. Und Hardware-Unternehmen erforschen neuartige Speichertechnologien, die höhere Kapazität oder Bandbreite mit niedrigeren Kosten bieten könnten.

Die Speicherherausforderung beeinflusst auch Modellentwicklungsentscheidungen. Einige KI-Labore investieren schwer in Techniken zur Reduzierung des Speicher-Fußabdrucks ihrer Modelle ohne Einbußen bei Fähigkeiten, einschließlich Quantisierung, die die numerische Präzision von Modellgewichten reduziert, und Mixture-of-Experts-Architekturen, die nur eine Teilmenge von Modellparametern für jede Anfrage aktivieren. Diese Techniken sind nicht nur akademische Übungen. Sie sind direkte Reaktionen auf die praktische Beschränkung, die Speicher auf die Wirtschaft der Bereitstellung ausübt.

Für das breitere KI-Ökosystem stellt die Aufmerksamkeitsverlagerung von GPUs auf Speicher eine Reifung des Verständnisses dar, was tatsächlich die Kosten und Machbarkeit der KI-Bereitstellung im Maßstab bestimmt. Das GPU-Knappheits-Narrativ wurde zwar nicht vollständig gelöst, aber teilweise durch erhöhte Produktionskapazität und den Eintritt von Konkurrenten wie AMD und Custom-Silicon von großen Cloud-Anbietern gelöst. Speicher hingegen ist mit längeren Vorlaufzeiten für Kapazitätserweiterung und weniger konkurrenzfähigen Alternativen konfrontiert, was es zu einem hartnäckigeren und strukturell herausfordernderer Engpass macht.

Was kommt als Nächstes

Speicherunternehmen reagieren auf die Nachfrage mit ehrgeizigen Kapazitätserweiterungsplänen. SK hynix baut neue Produktionsanlagen und rampet die Produktion seiner neuesten HBM3E-Produkte auf. Samsung arbeitet daran, seine Ausbeute-Probleme zu lösen und seine Wettbewerbsposition wiederherzustellen. Micron investiert in erweiterte HBM-Produktion in den USA und Japan. Aber die Halbleiter-Fertigungskapazität braucht Jahre zum Aufbau, und die Lücke zwischen aktuellem Angebot und projizierter Nachfrage deutet darauf hin, dass Speicher für absehbare Zeit ein limitierender Faktor in der KI-Infrastruktur bleiben wird.

Neue Technologien wie Compute Express Link, die es Systemen ermöglichen, Speicherpools über mehrere Prozessoren hinweg zu teilen, und neue Speicherarchitekturen, die in Forschungslaboren entwickelt werden, könnten die Beschränkung eventually lindern. Aber diese Lösungen sind Jahre vom kommerziellen Einsatz im großen Maßstab entfernt. Inzwischen lernt die KI-Industrie, dass die Infrastruktur-Herausforderung nicht um irgendein einzelnes Komponente geht, sondern um die komplexe Wechselwirkung von Prozessoren, Speicher, Netzwerk, Strom und Kühlung, die zusammen bestimmen, was möglich ist und zu welchem Preis.

Dieser Artikel basiert auf Berichten von TechCrunch. Lesen Sie den Originalartikel.