Percakapan Bergeser dari GPU ke Memori
Selama beberapa tahun terakhir, narasi tentang biaya infrastruktur AI telah didominasi oleh satu topik: GPU Nvidia. Kelangkaan, harga, dan alokasi unit pemrosesan grafis telah mendorong berita utama, keputusan investasi, dan strategi perusahaan di seluruh industri teknologi. Namun perubahan yang lebih halus sedang terjadi dalam cara industri memikirkan ekonomi infrastruktur AI. Semakin lama, memori, bukan kekuatan pemrosesan, muncul sebagai kendala mengikat pada kinerja dan biaya sistem AI.
Dinamika ini masuk akal secara intuitif ketika Anda memeriksa bagaimana model AI modern benar-benar beroperasi. Model bahasa besar tidak hanya menghitung jawaban. Ia harus menyimpan sejumlah besar data dalam memori aktif, dapat diakses dengan kecepatan yang sangat tinggi, untuk memproses setiap permintaan. Bobot model, parameter numerik yang mengenkode pengetahuan dan kemampuannya, harus dimuat ke dalam memori sebelum inferensi dapat dimulai. Untuk model frontier dengan ratusan miliar atau bahkan triliun parameter, memori yang diperlukan untuk menyimpan bobot ini jauh melampaui apa yang dirancang untuk disediakan oleh sistem komputing konvensional.
High Bandwidth Memory: Komponen Kritis
Jenis memori spesifik yang telah menjadi pusat infrastruktur AI adalah High Bandwidth Memory, dikenal sebagai HBM. Tidak seperti DRAM standar yang ditemukan di komputer konsumen, HBM menumpuk beberapa lapisan chip memori secara vertikal dan menghubungkannya dengan bus data yang sangat lebar, memungkinkan laju transfer data yang beberapa kali lipat lebih cepat daripada memori konvensional. Kecepatan ini penting karena akselerator AI seperti GPU H100 dan H200 Nvidia dapat memproses data jauh lebih cepat daripada memori standar dapat mengirimkannya. Tanpa HBM, prosesor ini akan menghabiskan sebagian besar waktu menunggu data, membuat kemampuan komputasional mereka sebagian besar tidak berguna.
HBM secara fisik terikat pada akselerator AI menggunakan teknik pengemasan canggih, menciptakan modul terintegrasi di mana memori dan pemrosesan sangat terhubung. Integrasi ini memberikan bandwidth yang diperlukan untuk beban kerja AI tetapi juga menciptakan ketergantungan rantai pasokan: setiap akselerator AI yang dikirim memerlukan alokasi HBM yang sesuai, dan kapasitas produksi HBM terkonsentrasi di antara hanya tiga produsen global.
Oligopoli Tiga Perusahaan
Pasokan global HBM dikendalikan oleh tiga perusahaan: SK hynix, Samsung, dan Micron. SK hynix, produsen semikonduktor Korea Selatan, saat ini mendominasi pasar dan merupakan pemasok HBM utama Nvidia. Samsung, meskipun menjadi perusahaan chip memori terbesar di dunia berdasarkan pendapatan keseluruhan, telah berjuang dengan masalah hasil dalam produksi HBM dan telah kehilangan pangsa pasar yang signifikan kepada SK hynix di segmen kritis ini. Micron, produsen memori Amerika, telah mendapatkan momentum dengan produk HBM yang kompetitif tetapi beroperasi pada skala yang lebih kecil dibandingkan dengan pesaing Koreannya.
Struktur pasokan yang terkonsentrasi ini menciptakan kekuatan penetapan harga yang signifikan bagi produsen HBM dan kerentanan bagi perusahaan infrastruktur AI. Ketika permintaan melampaui pasokan, seperti yang telah terjadi secara konsisten selama dua tahun terakhir, harga naik dan alokasi menjadi negosiasi strategis bukan proses pengadaan yang mudah. Perusahaan yang membangun pusat data AI harus mengamankan komitmen HBM jauh sebelumnya, sering kali menandatangani perjanjian pasokan jangka panjang dengan harga premium untuk memastikan mereka dapat memperoleh memori yang diperlukan untuk penyebaran yang direncanakan.
Ekonominya mencolok. HBM dapat mewakili 30 hingga 40 persen dari total biaya modul akselerator AI, proporsi yang telah tumbuh karena harga HBM meningkat lebih cepat daripada pasar semikonduktor yang lebih luas. Untuk perusahaan yang menerapkan ribuan akselerator AI di pusat data baru, tagihan memori saja dapat mencapai ratusan juta dolar.
Mengapa Permintaan Terus Tumbuh
Beberapa tren berkumpul untuk memperkuat permintaan akan HBM dan memori berkualitas AI secara lebih luas. Yang paling jelas adalah pertumbuhan terus-menerus dalam ukuran model. Setiap generasi baru model AI frontier cenderung jauh lebih besar daripada pendahulunya, memerlukan memori secara proporsional lebih banyak untuk menyimpan parameternya. Tetapi ukuran model hanya bagian dari persamaan.
Permintaan inferensi adalah kemungkinan driver yang lebih signifikan dari konsumsi memori daripada pelatihan. Sementara melatih model adalah proses satu kali yang memerlukan sumber daya komputasi besar untuk periode terbatas, inferensi, proses menjalankan model untuk merespons permintaan pengguna, adalah berkelanjutan dan skala dengan adopsi pengguna. Setiap interaksi obrolan, setiap penyelesaian kode, setiap permintaan pembuatan gambar memerlukan pemuatan bobot model ke dalam memori dan tetap di sana selama pemrosesan berlangsung.
Seiring aplikasi AI menyebar dan adopsi pengguna tumbuh, permintaan inferensi gabungan di seluruh industri tumbuh secara eksponensial. Perusahaan menerapkan model dalam layanan pelanggan, pengembangan perangkat lunak, pembuatan konten, analisis data, dan ratusan aplikasi lainnya, masing-masing menghasilkan permintaan memori berkelanjutan. Total memori yang diperlukan untuk melayani semua beban kerja ini secara bersamaan sekarang mewakili fraksi signifikan dari kapasitas produksi HBM global.
Ekspansi jendela konteks adalah faktor lain. Model seperti Claude dari Anthropic dan Gemini dari Google sekarang menawarkan jendela konteks satu juta token atau lebih, artinya mereka dapat memproses jumlah teks masukan yang luas dalam satu permintaan. Menangani konteks besar ini memerlukan penyimpanan status perhatian dan perhitungan perantara dalam memori di seluruh saluran pemrosesan, menambah konsumsi memori per permintaan.
Efek Riak pada Perencanaan Infrastruktur
Kendala memori mulai mempengaruhi keputusan infrastruktur AI dengan cara yang akan terlihat tidak mungkin bahkan dua tahun lalu. Arsitek pusat data merancang sistem dengan penyediaan memori sebagai kendala utama bukan pemikiran sekunder. Penyedia cloud membuat jenis instansi yang dioptimalkan memori khusus untuk beban kerja inferensi AI. Dan perusahaan perangkat keras menjelajahi teknologi memori baru yang dapat memberikan kapasitas lebih tinggi atau bandwidth dengan biaya lebih rendah.
Tantangan memori juga mempengaruhi keputusan pengembangan model. Beberapa lab AI berinvestasi berat dalam teknik untuk mengurangi jejak memori model mereka tanpa mengorbankan kemampuan, termasuk kuantisasi, yang mengurangi presisi numerik bobot model, dan arsitektur mixture-of-experts, yang mengaktifkan hanya subset parameter model untuk setiap permintaan. Teknik ini bukan hanya latihan akademik. Mereka adalah respons langsung terhadap kendala praktis yang memori paksakan pada ekonomi penyebaran.
Bagi ekosistem AI yang lebih luas, pergeseran perhatian dari GPU ke memori mewakili kedewasaan pemahaman tentang apa yang sebenarnya menentukan biaya dan kelayakan penyebaran AI dalam skala besar. Narasi kekurangan GPU, meskipun tidak sepenuhnya terselesaikan, telah sebagian ditangani oleh peningkatan kapasitas produksi dan masuknya pesaing seperti AMD dan silikon khusus dari penyedia cloud utama. Memori, sebaliknya, menghadapi waktu tunggu yang lebih lama untuk ekspansi kapasitas dan alternatif kompetitif lebih sedikit, menjadikannya hambatan yang lebih persisten dan secara struktural menantang.
Apa yang Akan Datang Selanjutnya
Perusahaan memori merespons permintaan dengan rencana ekspansi kapasitas yang ambisius. SK hynix membangun fasilitas produksi baru dan meningkatkan output produk HBM3E terbarunya. Samsung bekerja untuk mengatasi masalah hasil dan mendapatkan kembali posisi kompetitif. Micron berinvestasi dalam produksi HBM yang diperluas di Amerika Serikat dan Jepang. Tetapi kapasitas manufaktur semikonduktor memerlukan bertahun-tahun untuk dibangun, dan kesenjangan antara pasokan saat ini dan permintaan yang diproyeksikan menyarankan bahwa memori akan tetap menjadi faktor pembatas dalam infrastruktur AI untuk masa depan yang dapat diperkirakan.
Teknologi yang muncul seperti Compute Express Link, yang memungkinkan sistem untuk berbagi kumpulan memori di beberapa prosesor, dan arsitektur memori baru yang dikembangkan di lab penelitian dapat pada akhirnya mengurangi kendala. Tetapi solusi ini masih bertahun-tahun dari penyebaran komersial dalam skala. Sementara itu, industri AI belajar bahwa tantangan infrastruktur bukan tentang komponen tunggal tetapi tentang interaksi kompleks dari prosesor, memori, jaringan, daya, dan pendingin yang bersama-sama menentukan apa yang mungkin dan dengan biaya apa.
Artikel ini didasarkan pada laporan oleh TechCrunch. Baca artikel asli.


