La conversation passe des GPU à la mémoire

Depuis plusieurs années, le récit autour des coûts de l'infrastructure d'IA a été dominé par un seul sujet : les GPU Nvidia. La rareté, la tarification et l'allocation des unités de traitement graphique ont façonné les gros titres, les décisions d'investissement et la stratégie d'entreprise dans l'industrie technologique. Mais un changement plus discret est en cours dans la façon dont l'industrie envisage l'économie de l'infrastructure d'IA. De plus en plus, la mémoire, plutôt que la puissance de calcul, s'avère être la contrainte majeure sur la performance et le coût des systèmes d'IA.

La dynamique prend du sens quand on examine comment les modèles d'IA modernes fonctionnent réellement. Un grand modèle de langage ne fait pas simplement calculer des réponses. Il doit maintenir des quantités massives de données en mémoire active, accessibles à des vitesses extrêmement élevées, pour traiter chaque requête. Les poids du modèle, les paramètres numériques qui codifient ses connaissances et capacités, doivent être chargés en mémoire avant que l'inférence puisse commencer. Pour les modèles de pointe avec des centaines de milliards ou même des billions de paramètres, la mémoire requise pour stocker ces poids dépasse largement ce que les systèmes informatiques classiques ont été conçus pour fournir.

La mémoire à large bande passante : le composant critique

Le type de mémoire spécifique qui est devenu central pour l'infrastructure d'IA est la mémoire à large bande passante, connue sous le nom de HBM. Contrairement à la DRAM standard trouvée dans les ordinateurs de consommation, la HBM empile plusieurs couches de puces mémoire verticalement et les connecte avec un bus de données extrêmement large, permettant des taux de transfert de données qui sont des ordres de grandeur plus rapides que la mémoire classique. Cette vitesse est essentielle car les accélérateurs d'IA comme les GPU H100 et H200 de Nvidia peuvent traiter les données beaucoup plus rapidement que la mémoire standard ne peut les livrer. Sans HBM, ces processeurs passeraient la plupart de leur temps à attendre les données, rendant leurs capacités de calcul largement inutiles.

La HBM est physiquement liée à l'accélérateur d'IA en utilisant des techniques d'emballage avancées, créant un module intégré où la mémoire et le traitement sont étroitement couplés. Cette intégration fournit la bande passante nécessaire aux charges de travail d'IA mais crée également une dépendance de chaîne d'approvisionnement : chaque accélérateur d'IA expédié nécessite une allocation correspondante de HBM, et la capacité de production pour la HBM est concentrée entre seulement trois fabricants mondiaux.

Un oligopole de trois entreprises

L'offre mondiale de HBM est contrôlée par trois entreprises : SK hynix, Samsung et Micron. SK hynix, le fabricant de semi-conducteurs sud-coréen, domine actuellement le marché et est le principal fournisseur de HBM de Nvidia. Samsung, malgré le fait d'être la plus grande entreprise de puces mémoire au monde en termes de revenus totaux, a eu du mal avec les problèmes de rendement dans sa production de HBM et a perdu une part de marché importante face à SK hynix dans ce segment critique. Micron, le fabricant de mémoire américain, a fait des progrès avec des produits HBM compétitifs mais opère à une échelle plus petite que ses rivaux coréens.

Cette structure d'approvisionnement concentrée crée un pouvoir de tarification significatif pour les fabricants de HBM et une vulnérabilité pour les entreprises d'infrastructure d'IA. Quand la demande dépasse l'offre, comme cela s'est produit continuellement au cours des deux dernières années, les prix augmentent et l'allocation devient une négociation stratégique plutôt qu'un processus d'approvisionnement simple. Les entreprises qui construisent des centres de données d'IA doivent obtenir des engagements de HBM bien à l'avance, signant souvent des accords d'approvisionnement à long terme à des prix élevés pour assurer qu'elles peuvent obtenir la mémoire nécessaire pour leurs déploiements prévus.

Les économies sont frappantes. La HBM peut représenter 30 à 40 pour cent du coût total d'un module d'accélérateur d'IA, une proportion qui a augmenté alors que les prix de la HBM augmentent plus vite que le marché des semi-conducteurs dans son ensemble. Pour une entreprise déployant des milliers d'accélérateurs d'IA dans un nouveau centre de données, la facture mémoire seule peut atteindre des centaines de millions de dollars.

Pourquoi la demande continue de croître

Plusieurs tendances convergent pour intensifier la demande de HBM et de mémoire adaptée à l'IA plus largement. La plus évidente est la croissance continue de la taille des modèles. Chaque nouvelle génération de modèles d'IA de pointe tend à être significativement plus grande que son prédécesseur, nécessitant proportionnellement plus de mémoire pour stocker ses paramètres. Mais la taille du modèle n'est qu'une partie de l'équation.

La demande d'inférence est probablement un facteur plus significatif de la consommation de mémoire que l'entraînement. Tandis que l'entraînement d'un modèle est un processus unique (ou périodique) qui nécessite des ressources de calcul massives pour une période finie, l'inférence, le processus d'exécution réelle du modèle pour répondre aux requêtes des utilisateurs, est continu et augmente avec l'adoption par l'utilisateur. Chaque interaction de chat, chaque complétion de code, chaque demande de génération d'image nécessite de charger les poids du modèle en mémoire et de les y garder pendant le traitement.

Au fur et à mesure que les applications d'IA se multiplient et que l'adoption par l'utilisateur augmente, la demande d'inférence globale dans l'industrie augmente de façon exponentielle. Les entreprises déploient des modèles dans le service client, le développement de logiciels, la création de contenu, l'analyse de données et des centaines d'autres applications, chacune générant une demande de mémoire continue. La mémoire totale requise pour servir tous ces charges de travail simultanément représente maintenant une fraction significative de la capacité mondiale de production de HBM.

L'expansion de la fenêtre de contexte est un autre facteur. Les modèles comme Claude d'Anthropic et Gemini de Google offrent maintenant des fenêtres de contexte d'un million de tokens ou plus, ce qui signifie qu'ils peuvent traiter de grandes quantités de texte d'entrée dans une seule requête. La gestion de ces grands contextes nécessite de stocker les états d'attention et les calculs intermédiaires en mémoire tout au long du pipeline de traitement, ajoutant à la consommation de mémoire par requête.

Les effets d'entraînement sur la planification de l'infrastructure

Les contraintes de mémoire commencent à influencer les décisions d'infrastructure d'IA d'une manière qui aurait semblé improbable il y a seulement deux ans. Les architectes de centres de données conçoivent des systèmes avec l'approvisionnement en mémoire comme une contrainte principale plutôt qu'une réflexion ultérieure. Les fournisseurs de cloud créent des types d'instances optimisées pour la mémoire spécifiquement pour les charges de travail d'inférence d'IA. Et les entreprises de matériel explorent de nouvelles technologies de mémoire qui pourraient fournir une capacité ou une bande passante plus élevée à des coûts plus bas.

Le défi de la mémoire affecte également les décisions de développement des modèles. Certains laboratoires d'IA investissent massivement dans des techniques pour réduire l'empreinte mémoire de leurs modèles sans sacrifier les capacités, y compris la quantification, qui réduit la précision numérique des poids du modèle, et les architectures de mélange d'experts, qui activent seulement un sous-ensemble des paramètres d'un modèle pour chaque requête. Ces techniques ne sont pas seulement des exercices académiques. Ce sont des réponses directes à la contrainte pratique que la mémoire impose sur l'économie du déploiement.

Pour l'écosystème d'IA plus large, le passage de l'attention des GPU à la mémoire représente une maturation de la compréhension de ce qui détermine réellement le coût et la faisabilité du déploiement d'IA à l'échelle. Le récit de la pénurie de GPU, bien que non entièrement résolu, a été partiellement résolu par une augmentation de la capacité de production et l'entrée de concurrents comme AMD et le silicium personnalisé des principaux fournisseurs de cloud. La mémoire, par contraste, face à des délais plus longs pour l'expansion de la capacité et moins d'alternatives compétitives, ce qui en fait un goulot d'étranglement plus persistant et structurellement plus difficile.

Que se passe-t-il ensuite

Les entreprises de mémoire réagissent à la demande avec des plans ambitieux d'expansion de capacité. SK hynix construit de nouvelles installations de production et augmente la production de ses derniers produits HBM3E. Samsung travaille à résoudre ses problèmes de rendement et à regagner sa position compétitive. Micron investit dans une production HBM étendue aux États-Unis et au Japon. Mais la capacité de fabrication de semi-conducteurs prend des années à construire, et l'écart entre l'offre actuelle et la demande projetée suggère que la mémoire restera un facteur limitant dans l'infrastructure d'IA pour un avenir prévisible.

Les technologies émergentes comme Compute Express Link, qui permet aux systèmes de partager des pools de mémoire entre plusieurs processeurs, et les nouvelles architectures de mémoire en cours de développement dans les laboratoires de recherche pourraient éventuellement atténuer la contrainte. Mais ces solutions sont à des années du déploiement commercial à grande échelle. Entre-temps, l'industrie de l'IA apprend que le défi de l'infrastructure ne porte pas sur un seul composant mais sur l'interplay complexe des processeurs, de la mémoire, de la mise en réseau, de l'énergie et du refroidissement qui ensemble déterminent ce qui est possible et à quel coût.

Cet article est basé sur les reportages de TechCrunch. Lisez l'article original.