A Conversa Está Mudando de GPUs para Memória
Nos últimos anos, a narrativa em torno dos custos da infraestrutura de IA tem sido dominada por um único tema: GPUs Nvidia. A escassez, preço e alocação de unidades de processamento gráfico têm impulsionado manchetes, decisões de investimento e estratégia corporativa em toda a indústria de tecnologia. Mas uma mudança mais silenciosa está em andamento em como a indústria pensa sobre a economia da infraestrutura de IA. Cada vez mais, a memória, não o poder de processamento, está emergindo como a restrição vinculante no desempenho e custo do sistema de IA.
A dinâmica faz sentido intuitivo quando você examina como os modelos modernos de IA realmente funcionam. Um grande modelo de linguagem não simplesmente computa respostas. Deve manter vastas quantidades de dados na memória ativa, acessível em velocidades extremamente altas, para processar cada solicitação. Os pesos do modelo, os parâmetros numéricos que codificam seu conhecimento e capacidades, devem ser carregados na memória antes que a inferência possa começar. Para modelos de fronteira com centenas de bilhões ou até trilhões de parâmetros, a memória necessária para manter esses pesos supera em muito o que os sistemas de computação convencionais foram projetados para fornecer.
Memória de Banda Alta: O Componente Crítico
O tipo específico de memória que se tornou central para a infraestrutura de IA é a Memória de Banda Alta, conhecida como HBM. Ao contrário da DRAM padrão encontrada em computadores de consumidor, HBM empilha múltiplas camadas de chips de memória verticalmente e as conecta com um barramento de dados extremamente largo, permitindo taxas de transferência de dados que são ordens de magnitude mais rápidas que a memória convencional. Essa velocidade é essencial porque aceleradores de IA como as GPUs H100 e H200 da Nvidia podem processar dados muito mais rápido do que a memória padrão pode entregá-los. Sem HBM, esses processadores passariam a maior parte do tempo esperando por dados, tornando suas capacidades computacionais largamente inúteis.
HBM é fisicamente ligado ao acelerador de IA usando técnicas avançadas de empacotamento, criando um módulo integrado onde memória e processamento estão fortemente acoplados. Essa integração fornece a largura de banda necessária para cargas de trabalho de IA, mas também cria uma dependência da cadeia de suprimentos: cada acelerador de IA enviado requer uma alocação correspondente de HBM, e a capacidade de produção para HBM está concentrada entre apenas três fabricantes globais.
Um Oligopólio de Três Empresas
O fornecimento global de HBM é controlado por três empresas: SK hynix, Samsung e Micron. SK hynix, o fabricante sul-coreano de semicondutores, atualmente domina o mercado e é o principal fornecedor de HBM da Nvidia. Samsung, apesar de ser a maior empresa de chips de memória do mundo em receita geral, tem enfrentado problemas de rendimento em sua produção de HBM e perdeu participação de mercado significativa para SK hynix neste segmento crítico. Micron, o fabricante americano de memória, tem ganhado terreno com produtos HBM competitivos, mas opera em menor escala do que seus rivais coreanos.
Essa estrutura de fornecimento concentrada cria poder significativo de precificação para os fabricantes de HBM e vulnerabilidade para as empresas de infraestrutura de IA. Quando a demanda supera a oferta, como tem sido consistentemente nos últimos dois anos, os preços sobem e a alocação se torna uma negociação estratégica em vez de um processo de aquisição direto. As empresas que constroem data centers de IA devem garantir compromissos de HBM bem antes do tempo, geralmente assinando acordos de fornecimento de longo prazo com preços premium para garantir que possam obter a memória necessária para suas implantações planejadas.
A economia é impressionante. HBM pode representar 30 a 40 por cento do custo total de um módulo de acelerador de IA, uma proporção que vem crescendo à medida que os preços de HBM aumentam mais rápido do que o mercado de semicondutores mais amplo. Para uma empresa implantando milhares de aceleradores de IA em um novo data center, a conta de memória sozinha pode chegar a centenas de milhões de dólares.
Por Que a Demanda Continua Crescendo
Várias tendências estão convergindo para intensificar a demanda por HBM e memória de grau de IA mais amplamente. A mais óbvia é o crescimento contínuo no tamanho dos modelos. Cada nova geração de modelos de IA de fronteira tende a ser significativamente maior do que seu antecessor, exigindo proporcionalmente mais memória para armazenar seus parâmetros. Mas o tamanho do modelo é apenas parte da equação.
A demanda de inferência é argumentavelmente um driver mais significativo do consumo de memória do que o treinamento. Enquanto treinar um modelo é um processo único (ou periódico) que requer recursos computacionais maciços por um período finito, inferência, o processo de realmente executar o modelo para responder às solicitações do usuário, é contínuo e escala com a adoção do usuário. Cada interação de chat, cada conclusão de código, cada solicitação de geração de imagem requer carregar pesos do modelo na memória e mantê-los lá durante o processamento.
À medida que as aplicações de IA proliferam e a adoção do usuário cresce, a demanda agregada de inferência em toda a indústria está crescendo exponencialmente. As empresas estão implantando modelos em atendimento ao cliente, desenvolvimento de software, criação de conteúdo, análise de dados e centenas de outras aplicações, cada uma gerando demanda contínua de memória. A memória total necessária para servir todas essas cargas de trabalho simultaneamente agora representa uma fração significativa da capacidade global de produção de HBM.
A expansão da janela de contexto é outro fator. Modelos como Claude da Anthropic e Gemini do Google agora oferecem janelas de contexto de um milhão de tokens ou mais, o que significa que podem processar vastas quantidades de texto de entrada em uma única solicitação. Lidar com esses contextos grandes requer armazenar estados de atenção e computações intermediárias na memória em todo o pipeline de processamento, adicionando ao consumo de memória por solicitação.
Os Efeitos Secundários no Planejamento da Infraestrutura
As restrições de memória estão começando a influenciar as decisões de infraestrutura de IA de maneiras que pareceriam improvável há apenas dois anos. Arquitetos de data center estão projetando sistemas com provisão de memória como uma restrição primária em vez de uma reflexão posterior. Os provedores de nuvem estão criando tipos de instância otimizados para memória especificamente para cargas de trabalho de inferência de IA. E as empresas de hardware estão explorando novas tecnologias de memória que poderiam fornecer maior capacidade ou largura de banda com custos mais baixos.
O desafio de memória também afeta as decisões de desenvolvimento do modelo. Alguns laboratórios de IA estão investindo pesadamente em técnicas para reduzir a pegada de memória de seus modelos sem sacrificar a capacidade, incluindo quantização, que reduz a precisão numérica dos pesos do modelo, e arquiteturas de mistura de especialistas, que ativam apenas um subconjunto dos parâmetros de um modelo para cada solicitação. Essas técnicas não são apenas exercícios acadêmicos. São respostas diretas à restrição prática que a memória impõe sobre a economia de implantação.
Para o ecossistema de IA mais amplo, a mudança de atenção de GPUs para memória representa uma maturação da compreensão sobre o que realmente determina o custo e a viabilidade da implantação de IA em escala. A narrativa de escassez de GPU, embora não totalmente resolvida, foi parcialmente abordada pelo aumento da capacidade de produção e pela entrada de concorrentes como AMD e silício personalizado de grandes provedores de nuvem. A memória, por contraste, enfrenta prazos mais longos para expansão de capacidade e menos alternativas competitivas, tornando-a um gargalo mais persistente e estruturalmente desafiador.
O Que Vem A Seguir
As empresas de memória estão respondendo à demanda com planos ambiciosos de expansão de capacidade. SK hynix está construindo novas instalações de produção e aumentando a produção de seus últimos produtos HBM3E. Samsung está trabalhando para resolver seus problemas de rendimento e recuperar sua posição competitiva. Micron está investindo em produção expandida de HBM nos Estados Unidos e no Japão. Mas a capacidade de fabricação de semicondutores leva anos para construir, e a lacuna entre a oferta atual e a demanda projetada sugere que a memória permanecerá como um fator restritivo na infraestrutura de IA para o futuro previsível.
Tecnologias emergentes como Compute Express Link, que permite que os sistemas compartilhem pools de memória entre múltiplos processadores, e novas arquiteturas de memória sendo desenvolvidas em laboratórios de pesquisa podem eventualmente aliviar a restrição. Mas essas soluções estão anos de distância da implantação comercial em escala. Enquanto isso, a indústria de IA está aprendendo que o desafio de infraestrutura não é sobre um único componente, mas sobre a interação complexa de processadores, memória, rede, energia e resfriamento que juntos determinam o que é possível e a que custo.
Este artigo é baseado em reportagem do TechCrunch. Leia o artigo original.


