El laboratorio de chips en el corazón de la carrera de infraestructura de IA

Poco después de que Amazon anunciara una inversión de $50 mil millones en OpenAI, AWS invitó a TechCrunch a un raro recorrido privado por su instalación de desarrollo de chips Trainium — la operación de hardware que se ha convertido silenciosamente en una fuerza importante en la infraestructura de IA, ganándose a algunos de los clientes más exigentes de la industria.

La línea de chips Trainium, desarrollada por Annapurna Labs (adquirida por Amazon en 2015), fue inicialmente vista como un juego de reducción de costos para AWS: computación de entrenamiento más barata para los propios servicios de Amazon, reduciendo la dependencia de los costosos GPU de Nvidia. Pero en 2025 y 2026, algo cambió. Anthropic, OpenAI y presumiblemente Apple han movido cargas de trabajo significativas a Trainium, no solo por razones de costo sino por razones de capacidad y disponibilidad que los productos de suministro limitado de Nvidia no podían satisfacer fácilmente.

Qué hace diferente a Trainium

Los chips Trainium de segunda generación, construidos para el entrenamiento de transformadores a gran escala, ofrecen un enfoque arquitectónico diferente al diseño centrado en GPU de Nvidia. En lugar de reutilizar hardware gráfico para operaciones matriciales, Trainium está diseñado específicamente para los patrones computacionales específicos que dominan el entrenamiento moderno de IA: multiplicaciones matriciales masivas, mecanismos de atención y las comunicaciones de reducción total que sincronizan gradientes en miles de chips simultáneamente.

Los ingenieros de AWS en el recorrido describieron la tela de interconexión personalizada de Trainium 2, que vincula chips con una latencia sustancialmente más baja que los diseños competidores. Para ejecuciones de entrenamiento que abarcan decenas de miles de chips, la sobrecarga de comunicación suele ser la restricción vinculante — el cuello de botella que determina si un clúster se entrena eficientemente o pasa la mayoría de su tiempo esperando la sincronización de gradientes. La inversión de Amazon en esta capa de tela ha dado sus frutos en la eficiencia de escalabilidad multichip.

Las relaciones de Anthropic y OpenAI

El compromiso profundo de Anthropic con Trainium está bien documentado — la empresa firmó un acuerdo histórico multianual con AWS y ha entrenado varias versiones de sus modelos Claude sustancialmente en el silicio personalizado de Amazon. Lo que es más nuevo es la relación de OpenAI, que se formalizó junto con la inversión de $50 mil millones e implica que OpenAI ejecute cargas de trabajo de entrenamiento e inferencia en Trainium en una escala que habría parecido implausible hace 18 meses, dada la alineación histórica de OpenAI con la infraestructura Azure de Microsoft.

La conexión de Apple presumiblemente implica cargas de trabajo de inferencia para características de IA en dispositivos y en la nube — un mercado donde la eficiencia energética y el costo por inferencia importan enormemente en la escala de Apple.

Implicaciones para el dominio de Nvidia

La concentración de las principales empresas de IA en Trainium representa la amenaza más creíble a la monopolio de GPU de Nvidia en computación de IA que ha surgido hasta la fecha. Los desafiantes anteriores — TPU de Google, chips a escala de oblea de Cerebras, IPU de Graphcore — capturaron cargas de trabajo de nicho pero nunca sacaron ejecuciones de entrenamiento insignia de hardware de Nvidia en esta escala.

La respuesta de Nvidia ha sido acelerar su propio roadmap. La arquitectura Blackwell, ahora en producción en volumen, ofrece mejoras sustanciales en el rendimiento del entrenamiento. Pero las restricciones de suministro siguen siendo un desafío, y la capacidad de AWS para provisionar capacidad Trainium prácticamente ilimitada rápidamente — una función de ser propietario de sus propias relaciones de fab y cadena de suministro — le da una ventaja estructural para clientes que necesitan escalar rápidamente.

Para la industria más amplia, la aparición de alternativas creíbles a Nvidia probablemente comprimirá los costos de computación de IA con el tiempo, incluso cuando la escala absoluta del consumo de computación continúa creciendo.

Este artículo se basa en reportes de TechCrunch. Lea el artículo original.