La conversación se está desplazando de las GPU a la memoria
Durante los últimos años, el debate sobre los costos de la infraestructura de IA ha sido dominado por un único tema: las GPU de Nvidia. La escasez, los precios y la asignación de unidades de procesamiento gráfico han generado titulares, decisiones de inversión y estrategias corporativas en toda la industria tecnológica. Pero un cambio más silencioso está en marcha en la forma en que la industria piensa sobre la economía de la infraestructura de IA. Cada vez más, la memoria, no la potencia de procesamiento, se está convirtiendo en la restricción vinculante en el rendimiento y los costos del sistema de IA.
La dinámica tiene sentido intuitivo cuando examinas cómo operan realmente los modelos de IA modernos. Un modelo de lenguaje grande no simplemente calcula respuestas. Debe mantener enormes cantidades de datos en memoria activa, accesibles a velocidades extremadamente altas, para procesar cada solicitud. Los pesos del modelo, los parámetros numéricos que codifican su conocimiento y capacidades, deben cargarse en memoria antes de que pueda comenzar la inferencia. Para modelos fronterizos con cientos de miles de millones o incluso billones de parámetros, la memoria requerida para almacenar estos pesos supera con creces lo que los sistemas informáticos convencionales fueron diseñados para proporcionar.
Memoria de alto ancho de banda: el componente crítico
El tipo específico de memoria que se ha convertido en central para la infraestructura de IA es la Memoria de Alto Ancho de Banda, conocida como HBM. A diferencia de la DRAM estándar que se encuentra en las computadoras de consumidor, HBM apila múltiples capas de chips de memoria verticalmente y los conecta con un bus de datos extremadamente ancho, habilitando velocidades de transferencia de datos que son órdenes de magnitud más rápidas que la memoria convencional. Esta velocidad es esencial porque los aceleradores de IA como las GPU H100 y H200 de Nvidia pueden procesar datos mucho más rápido de lo que la memoria estándar puede entregarlos. Sin HBM, estos procesadores pasarían la mayor parte del tiempo esperando datos, dejando sus capacidades computacionales en gran medida inutilizadas.
La HBM está físicamente unida al acelerador de IA utilizando técnicas de empaque avanzadas, creando un módulo integrado donde la memoria y el procesamiento están estrechamente acoplados. Esta integración proporciona el ancho de banda necesario para cargas de trabajo de IA, pero también crea una dependencia de la cadena de suministro: cada acelerador de IA enviado requiere una asignación correspondiente de HBM, y la capacidad de producción para HBM está concentrada entre apenas tres fabricantes a nivel mundial.
Un oligopolio de tres empresas
El suministro global de HBM está controlado por tres empresas: SK hynix, Samsung y Micron. SK hynix, el fabricante de semiconductores surcoreano, actualmente domina el mercado y es el proveedor principal de HBM de Nvidia. Samsung, a pesar de ser la empresa más grande de chips de memoria en términos de ingresos generales, ha tenido dificultades con problemas de rendimiento en su producción de HBM y ha perdido una cuota de mercado significativa frente a SK hynix en este segmento crítico. Micron, el fabricante estadounidense de memoria, ha estado ganando terreno con productos HBM competitivos pero opera a una escala menor que sus rivales coreanos.
Esta estructura de suministro concentrada crea un poder de fijación de precios significativo para los fabricantes de HBM y vulnerabilidad para las empresas de infraestructura de IA. Cuando la demanda supera la oferta, como ha sucedido consistentemente durante los últimos dos años, los precios suben y la asignación se convierte en una negociación estratégica en lugar de un proceso de adquisición directo. Las empresas que construyen centros de datos de IA deben asegurar compromisos de HBM bien por adelantado, a menudo firmando acuerdos de suministro a largo plazo a precios premium para garantizar que puedan obtener la memoria necesaria para sus implementaciones planificadas.
La economía es sorprendente. La HBM puede representar del 30 al 40 por ciento del costo total de un módulo acelerador de IA, una proporción que ha estado creciendo a medida que los precios de HBM aumentan más rápido que el mercado de semiconductores en general. Para una empresa que implementa miles de aceleradores de IA en un nuevo centro de datos, la factura de memoria por sí sola puede ascender a cientos de millones de dólares.
Por qué la demanda sigue creciendo
Varias tendencias están convergiendo para intensificar la demanda de HBM y memoria de grado de IA en general. La más obvia es el crecimiento continuo en los tamaños de modelo. Cada nueva generación de modelos de IA fronterizos tiende a ser significativamente más grande que su predecesor, requiriendo proporcionalmente más memoria para almacenar sus parámetros. Pero el tamaño del modelo es solo parte de la ecuación.
La demanda de inferencia es probablemente un factor más significativo del consumo de memoria que el entrenamiento. Mientras que el entrenamiento de un modelo es un proceso único (o periódico) que requiere recursos computacionales masivos durante un período finito, la inferencia, el proceso de ejecutar realmente el modelo para responder a solicitudes de usuarios, es continua y se escala con la adopción de usuarios. Cada interacción de chat, cada finalización de código, cada solicitud de generación de imágenes requiere cargar pesos de modelo en memoria y mantenerlos allí durante la duración del procesamiento.
A medida que las aplicaciones de IA se proliferan y la adopción de usuarios crece, la demanda agregada de inferencia en toda la industria está creciendo exponencialmente. Las empresas están implementando modelos en servicio al cliente, desarrollo de software, creación de contenido, análisis de datos y cientos de otras aplicaciones, cada una generando demanda de memoria continua. La memoria total requerida para servir todas estas cargas de trabajo simultáneamente ahora representa una fracción significativa de la capacidad global de producción de HBM.
La expansión de la ventana de contexto es otro factor. Los modelos como Claude de Anthropic y Gemini de Google ahora ofrecen ventanas de contexto de un millón de tokens o más, lo que significa que pueden procesar enormes cantidades de texto de entrada en una única solicitud. Manejar estos contextos grandes requiere almacenar estados de atención e cálculos intermedios en memoria durante todo el pipeline de procesamiento, añadiendo al consumo de memoria por solicitud.
Los efectos secundarios en la planificación de infraestructura
Las restricciones de memoria están comenzando a influir en las decisiones de infraestructura de IA de maneras que hubieran parecido poco probables hace apenas dos años. Los arquitectos de centros de datos están diseñando sistemas con el aprovisionamiento de memoria como una restricción principal en lugar de una ocurrencia tardía. Los proveedores de nube están creando tipos de instancia optimizados para memoria específicamente para cargas de trabajo de inferencia de IA. Y las empresas de hardware están explorando nuevas tecnologías de memoria que podrían proporcionar mayor capacidad o ancho de banda a costos más bajos.
El desafío de memoria también afecta las decisiones de desarrollo de modelos. Algunos laboratorios de IA están invirtiendo mucho en técnicas para reducir la huella de memoria de sus modelos sin sacrificar la capacidad, incluyendo cuantización, que reduce la precisión numérica de los pesos del modelo, y arquitecturas de mezcla de expertos, que activan solo un subconjunto de los parámetros de un modelo para cada solicitud. Estas técnicas no son simplemente ejercicios académicos. Son respuestas directas a la restricción práctica que la memoria impone en la economía de implementación.
Para el ecosistema de IA más amplio, el cambio de atención de GPU a memoria representa una maduración de la comprensión sobre lo que realmente determina el costo y la viabilidad de la implementación de IA a escala. La narrativa de escasez de GPU, aunque no está completamente resuelta, ha sido parcialmente abordada por el aumento de la capacidad de producción y la entrada de competidores como AMD y silicio personalizado de los principales proveedores en la nube. La memoria, por el contrario, se enfrenta a plazos de entrega más largos para la expansión de capacidad y a menos alternativas competitivas, lo que la convierte en un cuello de botella más persistente y estructuralmente desafiante.
Qué viene después
Las empresas de memoria están respondiendo a la demanda con planes ambiciosos de expansión de capacidad. SK hynix está construyendo nuevas instalaciones de producción y aumentando la producción de sus productos HBM3E más recientes. Samsung está trabajando para resolver sus problemas de rendimiento y recuperar una posición competitiva. Micron está invirtiendo en producción de HBM expandida tanto en Estados Unidos como en Japón. Pero la capacidad de fabricación de semiconductores tarda años en construirse, y la brecha entre la oferta actual y la demanda proyectada sugiere que la memoria seguirá siendo un factor limitante en la infraestructura de IA en el futuro previsible.
Las tecnologías emergentes como Compute Express Link, que permite a los sistemas compartir grupos de memoria entre múltiples procesadores, y nuevas arquitecturas de memoria que se están desarrollando en laboratorios de investigación podrían eventualmente aliviar la restricción. Pero estas soluciones están años de la implementación comercial a escala. Mientras tanto, la industria de IA está aprendiendo que el desafío de infraestructura no se trata de un único componente sino de la interacción compleja de procesadores, memoria, redes, energía y refrigeración que juntos determinan lo que es posible y a qué costo.
Este artículo se basa en reportajes de TechCrunch. Lee el artículo original.


