Konuşma GPU'lardan Belleğe Kaymaktadır

Geçtiğimiz birkaç yıl boyunca, Yapay Zeka altyapısı maliyetleriyle ilgili anlatı tek bir konuyla baskın hale getirilmiştir: Nvidia GPU'ları. Grafik İşleme Birimlerinin kıtlığı, fiyatlandırması ve tahsisi, teknoloji endüstrisinde başlıkları, yatırım kararlarını ve kurumsal stratejileri belirlemişti. Ancak endüstrinin Yapay Zeka altyapısı ekonomisini nasıl düşündüğü konusunda daha sessiz bir değişim meydana gelmektedir. Gittikçe artan şekilde, işleme gücü değil bellek, Yapay Zeka sistem performansı ve maliyeti üzerinde bağlayıcı kısıtlama haline gelmektedir.

Modern Yapay Zeka modellerinin gerçekten nasıl çalıştığını incelediğinizde bu dinamik sezgisel açıdan anlamlıdır. Büyük bir dil modeli basitçe yanıtları hesaplamaz. Her isteği işlemek için aktif bellekte muazzam miktarda veriyi tutması ve aşırı yüksek hızda erişilebilir olması gerekir. Model ağırlıkları—bilgisini ve yeteneklerini kodlayan sayısal parametreler—çıkarım başlamadan önce belleğe yüklenmelidir. Yüzlerce milyar veya trilyon parametrelere sahip sınır modelleri için, bu ağırlıkları tutmak için gerekli bellek, geleneksel bilgisayar sistemlerinin sağlamak üzere tasarlandığı miktarı çok aşmaktadır.

Yüksek Bant Genişliği Belleği: Kritik Bileşen

Yapay Zeka altyapısının merkezi haline gelen bellek türü, Yüksek Bant Genişliği Belleği'dir (HBM). Tüketici bilgisayarlarında bulunan standart DRAM'dan farklı olarak, HBM bellek çipi katmanlarını dikey olarak yığınlar ve onları aşırı geniş bir veri veri yolu ile bağlar ve geleneksel bellekten birden fazla büyüklük sırasına kayan veri aktarım hızlarını sağlar. Bu hız esastır, çünkü Nvidia'nın H100 ve H200 GPU'ları gibi Yapay Zeka hızlandırıcıları, standart belleğin sağlayabileceğinden çok daha hızlı veri işleyebilir. HBM olmadan, bu işlemciler veri beklemekle zamanın çoğunu harcayacak ve hesaplama yeteneklerini büyük ölçüde işe yaramaz hale getirecektir.

HBM, ileri ambalajlama teknikleri kullanılarak Yapay Zeka hızlandırıcısına fiziksel olarak bağlanır ve bellek ile işlemenin sıkı bir şekilde bağlandığı entegre bir modül oluşturur. Bu entegrasyon, Yapay Zeka iş yükleri için gereken bant genişliğini sağlar ancak bir tedarik zinciri bağımlılığı da oluşturur: gönderilen her Yapay Zeka hızlandırıcısı karşılık gelen bir HBM tahsisi gerektirir ve HBM üretim kapasitesi dünya çapında yalnızca üç üretici arasında yoğunlaşmıştır.

Üç Şirketten Oluşan Oligopol

Küresel HBM arzı üç şirket tarafından kontrol edilmektedir: SK hynix, Samsung ve Micron. Güney Koreli yarı iletken üreticisi SK hynix, halihazırda pazarı domine etmekte ve Nvidia'nın birincil HBM tedarikçisidir. Toplam gelire göre dünyanın en büyük bellek çipi şirketi olmasına rağmen Samsung, HBM üretiminde verim sorunlarıyla boğuşmuş ve bu kritik segmentte SK hynix'e önemli pazar payı kaybetmiştir. Amerikan bellek üreticisi Micron, rekabetçi HBM ürünleriyle ilerleme kaydedemiş ancak Kore rakiplerinden daha küçük ölçekte faaliyet göstermektedir.

Bu yoğunlaşmış arz yapısı, HBM üreticileri için önemli fiyatlandırma gücü ve Yapay Zeka altyapısı şirketleri için savunmasızlık yaratmaktadır. Talep arzı aştığında—geçtiğimiz iki yıl boyunca tutarlı şekilde olduğu gibi—fiyatlar yükselir ve tahsisat doğrudan bir satın alma sürecinden ziyade stratejik müzakereye dönüşür. Yapay Zeka veri merkezleri kuran şirketler, önceden HBM taahhütlerini güvence altına almalı ve sıklıkla premium fiyatlarla uzun vadeli arz anlaşmalarını imzalayarak planlanan dağıtımları için gerekli belleği alabileceklerini sağlamaktadırlar.

Ekonomik durum dikkat çekicidir. HBM, Yapay Zeka hızlandırıcı modülünün toplam maliyetinin yüzde 30 ila 40'ını temsil edebilir ve HBM fiyatları daha geniş yarı iletken pazarından daha hızlı arttıkça bu oran artmıştır. Yeni bir veri merkezinde binlerce Yapay Zeka hızlandırıcısı dağıtan bir şirket için, yalnızca bellek faturası yüzlerce milyon dolara ulaşabilir.

Talep Neden Artmaya Devam Ediyor

Birkaç eğilim, HBM'ye ve daha geniş olarak Yapay Zeka uyumlu belleğe olan talebi yoğunlaştırmak için birleşmektedir. En açık olanı model boyutlarında süregelen büyüştür. Sınır Yapay Zeka modellerinin her yeni nesli öncülünden önemli ölçüde daha büyük olma eğilimindedir ve parametrelerini depolamak için orantılı olarak daha fazla belleğe ihtiyaç duyar. Ancak model boyutu denklemin yalnızca bir parçasıdır.

Çıkarım talebi, eğitimden daha fazla bellek tüketiminin önemli bir itici gücü olabilir. Bir modeli eğitmek sınırlı bir süre boyunca muazzam hesaplama kaynakları gerektiren tek seferlik (veya periyodik) bir süreç iken, çıkarım—modeli kullanıcı isteklerine yanıt vermek üzere çalıştırma süreci—süregelen ve kullanıcı alımıyla ölçeklenir. Her sohbet etkileşimi, her kod tamamlaması, her görüntü oluşturma isteği, model ağırlıklarının belleğe yüklenmesini ve işlem sırasında orada tutulmasını gerektirir.

Yapay Zeka uygulamaları yaygınlaştıkça ve kullanıcı alımı arttıkça, endüstri genelinde toplam çıkarım talebi katlanarak artmaktadır. Şirketler müşteri hizmetleri, yazılım geliştirme, içerik oluşturma, veri analizi ve yüzlerce diğer uygulamada modeller dağıtmakta ve her biri süregelen bellek talebi yaratmaktadır. Tüm bu iş yüklerine eşzamanlı olarak hizmet vermek için gerekli toplam bellek, küresel HBM üretim kapasitesinin önemli bir payını temsil etmektedir.

Bağlam penceresi genişlemesi başka bir faktördür. Anthropic'in Claude ve Google'ın Gemini gibi modeller, milyondan fazla token'larının bağlam penceresi sunmakta ve bu da tek bir istekte muazzam miktarda giriş metni işleyebildikleri anlamına gelmektedir. Bu büyük bağlamları işlemek, dikkat durumlarını ve ara hesaplamaları tüm işleme ardışık düzeninde bellekte depolamayı gerektirir ve istek başına bellek tüketimini arttırır.

Altyapı Planlamasında Dalgalanma Etkileri

Bellek kısıtlamaları, Yapay Zeka altyapısı kararlarını yalnızca iki yıl öncesi imkansız görünen şekillerde etkiler meye başlamaktadır. Veri merkezi mimarları, bellek sağlama işlemini sonradan bir düşünce değil birincil kısıtlama olarak tasarlanan sistemler oluşturmaktadır. Bulut sağlayıcılar, özel olarak Yapay Zeka çıkarım iş yükleri için bellek-optimize örnek türleri oluşturmaktadırlar. Donanım şirketleri, daha yüksek kapasite veya bant genişliğini daha düşük maliyetlerde sağlayabilen yeni bellek teknolojilerini araştırmaktadırlar.

Bellek zorlayıcı aynı zamanda model geliştirme kararlarını da etkiler. Bazı Yapay Zeka laboratuvarları, yeteneği feda etmeden kendi modellerinin bellek ayak izini azaltma tekniklerine yoğun bir şekilde yatırım yapmaktadırlar; bunlar kuantilenmiş (model ağırlıklarının sayısal kesinliğini düşüren) ve uzman mimarisi karışımı (her istek için yalnızca bir modelin parametrelerinin alt kümesini etkinleştiren) kapsamaktadır. Bu teknikler yalnızca akademik egzersizler değildir. Bunlar, dağıtım ekonomisine belleğin uyguladığı pratik kısıtlamaya doğrudan yanıttır.

Daha geniş Yapay Zeka ekosistemi için, GPU'lardan belleğe dikkatin kaydırılması, ölçekte Yapay Zeka dağıtımının maliyetini ve uygulanabilirliğini gerçekten neyin belirlediği hakkında anlayışın olgunlaşmasını temsil eder. GPU kıtlığı anlatısı, tamamen çözülmemiş olmakla birlikte, kısmen üretim kapasitesinin artırılması ve AMD gibi rakiplerin ve büyük bulut sağlayıcılarından gelen özel silisyumun girişiyle ele alınmıştır. Bellek ise, kapasite genişletmesi için daha uzun zaman ufuğu ve daha az rekabetçi alternatif ile karşı karşıyadır ve bunu daha kalıcı ve yapısal olarak daha zorlayıcı bir darboğaz yapmaktadır.

Bundan Sonra Ne Geliyor

Bellek şirketleri, hırslı kapasite genişletme planlarıyla talebe yanıt vermektedirler. SK hynix yeni üretim tesisleri inşa ediyor ve en son HBM3E ürünlerinin üretimini artırıyor. Samsung, verim sorunlarını çözmek ve rekabetçi konumunu geri kazanmak için çalışmaktadır. Micron, hem Amerika Birleşik Devletleri hem de Japonya'da genişletilmiş HBM üretiminde yatırım yapmaktadır. Ancak yarı iletken üretim kapasitesinin inşası yıl alır ve cari arz ile öngörülen talep arasındaki boşluk, belleğin öngörülebilir gelecek için Yapay Zeka altyapısında sınırlayıcı bir faktör olacağını göstermektedir.

Compute Express Link gibi ortaya çıkan teknolojiler, sistemlerin birden fazla işlemci arasında bellek havuzlarını paylaşmasına izin verir ve araştırma laboratuvarlarında geliştirilen yeni bellek mimarileri sonunda kısıtlamayı hafifletebilir. Ancak bu çözümler, ölçekli ticari dağıtımdan yıllar uzaktadır. Bu arada, Yapay Zeka endüstrisi, altyapı zorlayıcının tek bir bileşenle ilgili olmadığını, birlikte neyin mümkün olduğunu ve hangi maliyetle mümkün olduğunu belirleyen işlemciler, bellek, ağ, güç ve soğutmanın karmaşık etkileşimi hakkında olduğunu öğrenmektedir.

Bu makale TechCrunch'ın raporlamasına dayanmaktadır. Orijinal makaleyi okuyun.