대화가 GPU에서 메모리로 이동

지난 수년간 AI 인프라 비용에 관한 내러티브는 한 가지 주제인 Nvidia GPU에 의해 지배되어 왔습니다. 그래픽 처리 장치의 부족, 가격 책정, 할당은 기술 산업 전체의 헤드라인, 투자 결정, 기업 전략을 주도했습니다. 그러나 업계가 AI 인프라 경제학을 생각하는 방식에 더 조용한 변화가 일어나고 있습니다. 점점 더 처리 능력이 아닌 메모리가 AI 시스템 성능과 비용의 구속 제약으로 떠오르고 있습니다.

현대 AI 모델이 실제로 어떻게 작동하는지 살펴보면 이 역학은 직관적으로 이해가 됩니다. 대형 언어 모델은 단순히 답을 계산하지 않습니다. 각 요청을 처리하기 위해 활성 메모리에 엄청난 양의 데이터를 보유하고 극도로 높은 속도로 액세스할 수 있어야 합니다. 모델의 가중치—모델의 지식과 능력을 인코딩하는 수치 파라미터—는 추론이 시작되기 전에 메모리로 로드되어야 합니다. 수백억 또는 심지어 수조 개의 파라미터를 가진 프론티어 모델의 경우, 이러한 가중치를 보유하는 데 필요한 메모리는 기존 컴퓨팅 시스템이 제공하도록 설계된 것을 훨씬 초과합니다.

고대역폭 메모리: 중요한 구성 요소

AI 인프라의 중심이 된 특정 메모리 유형은 고대역폭 메모리(HBM)로 알려져 있습니다. 소비자 컴퓨터에서 발견되는 표준 DRAM과 달리 HBM은 여러 메모리 칩 층을 수직으로 쌓고 매우 넓은 데이터 버스로 연결하여 종래의 메모리보다 몇 배 빠른 데이터 전송률을 가능하게 합니다. 이 속도는 필수적입니다. Nvidia의 H100 및 H200 GPU와 같은 AI 가속기는 표준 메모리가 제공할 수 있는 것보다 훨씬 빠르게 데이터를 처리할 수 있기 때문입니다. HBM 없이는 이러한 프로세서가 데이터를 기다리는 데 대부분의 시간을 소비하여 계산 능력이 거의 쓸모없어집니다.

HBM은 고급 패키징 기술을 사용하여 AI 가속기에 물리적으로 결합되어 메모리와 처리가 밀접하게 결합된 통합 모듈을 만듭니다. 이 통합은 AI 워크로드에 필요한 대역폭을 제공하지만 공급망 의존성도 생성합니다: 출하되는 모든 AI 가속기는 해당하는 HBM 할당이 필요하며 HBM 생산 능력은 전 세계 3개 제조업체에 집중되어 있습니다.

3사 독과점

전 세계 HBM 공급은 3개 회사에 의해 통제됩니다: SK hynix, Samsung, Micron. 남한 반도체 제조사 SK hynix는 현재 시장을 지배하고 있으며 Nvidia의 주요 HBM 공급업체입니다. 전체 수익 기준으로 세계 최대 메모리칩 회사인 Samsung은 HBM 생산의 수율 문제로 어려움을 겪었으며 이 중요한 부분에서 SK hynix에게 상당한 시장 점유율을 잃었습니다. 미국 메모리 제조업체 Micron은 경쟁력 있는 HBM 제품으로 진전하고 있지만 한국 경쟁사보다 더 작은 규모로 운영됩니다.

이러한 집중된 공급 구조는 HBM 제조업체에 상당한 가격 책정 권력을 생성하고 AI 인프라 회사에 취약성을 만듭니다. 수요가 공급을 초과할 때—지난 2년간 지속적으로 발생—가격이 올라가고 할당은 직접 조달 프로세스가 아닌 전략적 협상이 됩니다. AI 데이터 센터를 구축하는 회사는 미리 HBM 약정을 확보해야 하며 종종 계획된 배포에 필요한 메모리를 확보할 수 있도록 프리미엄 가격에 장기 공급 계약에 서명합니다.

경제는 놀랍습니다. HBM은 AI 가속기 모듈의 총 비용의 30~40%를 나타낼 수 있으며, HBM 가격이 더 광범위한 반도체 시장보다 더 빠르게 상승함에 따라 이 비율은 증가했습니다. 새 데이터 센터에 수천 개의 AI 가속기를 배포하는 회사의 경우 메모리 비용만 해도 수억 달러에 달할 수 있습니다.

수요가 계속 증가하는 이유

여러 추세가 수렴하여 HBM 및 더 광범위한 AI 호환 메모리에 대한 수요를 강화하고 있습니다. 가장 명백한 것은 모델 크기의 지속적인 성장입니다. 프론티어 AI 모델의 각 새로운 세대는 이전 세대보다 상당히 크므로 파라미터를 저장하기 위해 비례적으로 더 많은 메모리가 필요합니다. 하지만 모델 크기는 방정식의 일부일 뿐입니다.

추론 수요는 훈련보다 메모리 소비의 더 중요한 동인이라고 할 수 있습니다. 모델 훈련이 유한 기간 동안 막대한 계산 리소스를 필요로 하는 일회성(또는 주기적) 프로세스인 반면, 추론—사용자 요청에 응답하기 위해 모델을 실제로 실행하는 프로세스—는 지속적이며 사용자 채택에 따라 확장됩니다. 각 채팅 상호작용, 각 코드 완성, 각 이미지 생성 요청은 모델 가중치를 메모리로 로드하고 처리 중에 유지해야 합니다.

AI 애플리케이션이 증가하고 사용자 채택이 증가함에 따라 업계 전체의 총 추론 수요가 기하급수적으로 증가하고 있습니다. 회사는 고객 서비스, 소프트웨어 개발, 콘텐츠 생성, 데이터 분석 및 수백 개의 다른 애플리케이션에서 모델을 배포하며 각각은 지속적인 메모리 수요를 생성합니다. 이러한 모든 워크로드를 동시에 처리하는 데 필요한 총 메모리는 이제 전 세계 HBM 생산 능력의 상당한 부분을 나타냅니다.

컨텍스트 윈도우 확장은 또 다른 요소입니다. Anthropic의 Claude 및 Google의 Gemini와 같은 모델은 이제 100만 개 이상의 토큰의 컨텍스트 윈도우를 제공하므로 단일 요청에서 대량의 입력 텍스트를 처리할 수 있습니다. 이러한 큰 컨텍스트를 처리하려면 전체 처리 파이프라인에서 메모리에 주의 상태 및 중간 계산을 저장해야 하므로 요청당 메모리 소비가 증가합니다.

인프라 계획에 미치는 파급 효과

메모리 제약은 단 2년 전만 해도 불가능해 보이던 방식으로 AI 인프라 결정에 영향을 미치기 시작했습니다. 데이터 센터 아키텍트는 메모리 프로비저닝을 사후 고려가 아닌 주요 제약으로 시스템을 설계하고 있습니다. 클라우드 제공자는 AI 추론 워크로드를 위해 특별히 메모리 최적화된 인스턴스 유형을 만들고 있습니다. 하드웨어 회사는 더 높은 용량 또는 대역폭을 더 낮은 비용으로 제공할 수 있는 새로운 메모리 기술을 탐색하고 있습니다.

메모리 문제는 또한 모델 개발 결정에 영향을 미칩니다. 일부 AI 랩은 양자화(모델 가중치의 수치 정밀도 감소) 및 혼합 전문가 아키텍처(각 요청에 대해 모델 파라미터의 부분 집합만 활성화)를 포함하여 능력을 희생하지 않으면서 모델의 메모리 풋프린트를 줄이는 기술에 크게 투자하고 있습니다. 이러한 기술은 단순한 학술 연습이 아닙니다. 그들은 배포 경제학에 메모리가 부과하는 실제적 제약에 직접적인 대응입니다.

더 광범위한 AI 생태계의 경우, GPU에서 메모리로의 관심 이동은 규모에서 AI 배포의 비용과 실행 가능성을 실제로 결정하는 것에 대한 이해의 성숙을 나타냅니다. GPU 부족 내러티브는 완전히 해결되지 않았지만, 생산 능력 증가 및 AMD와 주요 클라우드 제공자의 커스텀 실리콘 경쟁 진입으로 부분적으로 해결되었습니다. 반면 메모리는 용량 확장을 위한 더 긴 리드 타임과 더 적은 경쟁 대안에 직면해 있어 더 지속적이고 구조적으로 더 도전적인 병목이 됩니다.

다음은 무엇인가

메모리 회사는 야심찬 용량 확장 계획으로 수요에 대응하고 있습니다. SK hynix는 새로운 생산 시설을 건설하고 최신 HBM3E 제품의 생산을 늘리고 있습니다. Samsung은 수율 문제를 해결하고 경쟁 입지를 회복하기 위해 노력하고 있습니다. Micron은 미국과 일본에서 확대된 HBM 생산에 투자하고 있습니다. 그러나 반도체 제조 용량은 구축하는 데 수년이 걸리며, 현재 공급과 예상 수요 사이의 격차는 예측 가능한 미래에 메모리가 AI 인프라의 제한 요소로 남을 것임을 시사합니다.

Compute Express Link와 같은 신흥 기술(시스템이 여러 프로세서 간에 메모리 풀을 공유할 수 있도록 허용)과 연구소에서 개발 중인 새로운 메모리 아키텍처는 궁극적으로 제약을 완화할 수 있습니다. 하지만 이러한 솔루션은 대규모 상용 배포까지 몇 년 떨어져 있습니다. 한편 AI 산업은 인프라 문제가 단일 구성 요소에 관한 것이 아니라 함께 무엇이 가능하고 어떤 비용으로 가능한지를 결정하는 프로세서, 메모리, 네트워킹, 전력 및 냉각의 복잡한 상호작용에 관한 것임을 배우고 있습니다.

이 기사는 TechCrunch의 보도를 바탕으로 합니다. 원본 기사 읽기.