Разговор смещается от GPU к памяти

В течение последних нескольких лет повествование о расходах на инфраструктуру ИИ было сосредоточено на одной теме: GPU от Nvidia. Дефицит, цены и распределение графических ускорителей определили заголовки, инвестиционные решения и корпоративную стратегию по всей технологической отрасли. Но происходит тихий сдвиг в том, как индустрия думает об экономике инфраструктуры ИИ. Всё чаще память, а не вычислительная мощность, становится ключевым ограничением производительности и стоимости систем ИИ.

Эта динамика имеет интуитивный смысл, когда вы изучаете, как на самом деле работают современные модели ИИ. Большая языковая модель не просто вычисляет ответы. Она должна хранить огромные объёмы данных в активной памяти, доступной на чрезвычайно высоких скоростях, чтобы обработать каждый запрос. Веса модели, численные параметры, кодирующие её знания и возможности, должны быть загружены в память до начала вывода. Для передовых моделей со сотнями миллиардов или даже триллионами параметров требуемая память намного превосходит то, для чего были разработаны обычные вычислительные системы.

High Bandwidth Memory: критический компонент

Специфический тип памяти, который стал центральным в инфраструктуре ИИ, — это High Bandwidth Memory, известная как HBM. В отличие от стандартной DRAM, используемой в потребительских компьютерах, HBM укладывает несколько слоёв микросхем памяти вертикально и соединяет их чрезвычайно широкой шиной данных, обеспечивая скорость передачи данных в порядки быстрее, чем обычная память. Эта скорость критична, поскольку ускорители ИИ, такие как H100 и H200 от Nvidia, могут обрабатывать данные намного быстрее, чем может доставить обычная память. Без HBM эти процессоры большую часть времени ждали бы данных, делая их вычислительные возможности по большей части бесполезными.

HBM физически соединена с ускорителем ИИ с использованием продвинутых методов упаковки, создавая интегрированный модуль, где память и обработка тесно связаны. Эта интеграция обеспечивает полосу пропускания, необходимую для рабочих нагрузок ИИ, но также создаёт зависимость цепочки поставок: каждый отправляемый ускоритель ИИ требует соответствующего выделения HBM, и производственные мощности для HBM сконцентрированы всего у трёх производителей в мире.

Олигополия трёх компаний

Глобальное предложение HBM контролируется тремя компаниями: SK hynix, Samsung и Micron. SK hynix, южнокорейский производитель полупроводников, в настоящее время доминирует на рынке и является основным поставщиком HBM для Nvidia. Samsung, несмотря на то, что является крупнейшей в мире компанией по производству чипов памяти по общей выручке, столкнулся с проблемами выхода в производстве HBM и потерял значительную долю рынка SK hynix в этом критическом сегменте. Micron, американский производитель памяти, набирает позиции с конкурентоспособными продуктами HBM, но работает в меньшем масштабе, чем его южнокорейские конкуренты.

Эта концентрированная структура предложения создаёт значительную власть над ценами для производителей HBM и уязвимость для компаний инфраструктуры ИИ. Когда спрос превышает предложение, как это последовательно происходило в течение последних двух лет, цены растут и распределение становится стратегическим переговором, а не простым процессом закупок. Компании, строящие центры обработки данных ИИ, должны обеспечить обязательства HBM задолго до этого, часто подписывая долгосрочные соглашения о поставках по премиальным ценам, чтобы гарантировать, что они смогут получить память, необходимую для запланированных развёртываний.

Экономика поразительна. HBM может представлять 30-40 процентов от общей стоимости модуля ускорителя ИИ, доля которого растёт, поскольку цены HBM растут быстрее, чем более широкий рынок полупроводников. Для компании, развёртывающей тысячи ускорителей ИИ в новом центре обработки данных, только счёт за память может составить сотни миллионов долларов.

Почему спрос продолжает расти

Несколько тенденций сходятся, чтобы усилить спрос на HBM и память для ИИ в целом. Наиболее очевидная — это продолжающийся рост размеров моделей. Каждое новое поколение передовых моделей ИИ обычно значительно больше своего предшественника, требуя пропорционально больше памяти для хранения своих параметров. Но размер модели — это только часть уравнения.

Спрос на вывод, возможно, является более значительным фактором потребления памяти, чем обучение. В то время как обучение модели — это одноразовый (или периодический) процесс, требующий массивных вычислительных ресурсов в течение конечного периода, вывод, процесс фактического запуска модели для ответа на запросы пользователей, является непрерывным и масштабируется в зависимости от принятия пользователями. Каждое взаимодействие в чате, каждое завершение кода, каждый запрос на генерацию изображения требует загрузки весов модели в память и их хранения там на протяжении всей обработки.

По мере того как приложения ИИ размножаются и принятие пользователями растёт, совокупный спрос на вывод по всей отрасли растёт экспоненциально. Компании развёртывают модели в обслуживании клиентов, разработке программного обеспечения, создании контента, анализе данных и сотнях других приложений, каждое из которых генерирует непрерывный спрос на память. Общая память, требуемая для одновременного обслуживания всех этих рабочих нагрузок, теперь представляет значительную долю мировых производственных мощностей HBM.

Расширение окна контекста — ещё один фактор. Модели, такие как Claude от Anthropic и Gemini от Google, теперь предлагают окна контекста в один миллион токенов или более, что означает, что они могут обрабатывать огромные объёмы входного текста в одном запросе. Обработка этих больших контекстов требует хранения состояний внимания и промежуточных вычислений в памяти на протяжении всего конвейера обработки, добавляя к потреблению памяти на запрос.

Побочные эффекты на планирование инфраструктуры

Ограничения памяти начинают влиять на решения по инфраструктуре ИИ способами, которые казались бы маловероятными даже два года назад. Архитекторы центров обработки данных проектируют системы с provisioning памяти как первичное ограничение, а не второстепенное дело. Поставщики облачных услуг создают типы экземпляров, оптимизированные для памяти, специально для рабочих нагрузок вывода ИИ. И компании по производству оборудования изучают новые технологии памяти, которые могли бы обеспечить большую ёмкость или пропускную способность при более низких затратах.

Проблема с памятью также влияет на решения при разработке модели. Некоторые лаборатории ИИ инвестируют в методы, чтобы снизить объём памяти своих моделей без ущерба для способности, включая квантизацию, которая снижает числовую точность весов модели, и архитектуры смеси экспертов, которые активируют только подмножество параметров модели для каждого запроса. Эти методы — не просто академические упражнения. Это прямые ответы на практическое ограничение, которое память налагает на экономику развёртывания.

Для более широкой экосистемы ИИ смещение внимания с GPU на память представляет зрелость понимания того, что на самом деле определяет стоимость и осуществимость развёртывания ИИ в масштабе. Повествование о нехватке GPU, хотя и не полностью разрешено, было частично решено за счёт увеличения производственных мощностей и входа конкурентов, таких как AMD и пользовательские решения от крупных поставщиков облачных услуг. Память же, напротив, сталкивается с более длительными сроками поставок для расширения мощностей и меньшим количеством конкурентных альтернатив, что делает её более стойким и структурно сложным узким местом.

Что дальше

Компании по производству памяти реагируют на спрос амбициозными планами расширения производственных мощностей. SK hynix строит новые производственные объекты и увеличивает выпуск своих последних продуктов HBM3E. Samsung работает над разрешением своих проблем с выходом и восстановлением конкурентного положения. Micron инвестирует в расширенное производство HBM как в США, так и в Японии. Но производство полупроводников требует лет, и разрыв между текущим предложением и прогнозируемым спросом предполагает, что память останется ограничивающим фактором в инфраструктуре ИИ в обозримом будущем.

Появляющиеся технологии, такие как Compute Express Link, которая позволяет системам обмениваться пулами памяти между несколькими процессорами, и новые архитектуры памяти, разрабатываемые в исследовательских лабораториях, могли бы в конечном итоге облегчить ограничение. Но эти решения находятся в годах от развёртывания в коммерческих масштабах. Тем временем индустрия ИИ узнаёт, что проблема инфраструктуры заключается не в каком-то одном компоненте, а в сложном взаимодействии процессоров, памяти, сетей, питания и охлаждения, которые вместе определяют, что возможно и при какой стоимости.

Эта статья основана на материалах TechCrunch. Прочитайте исходную статью.