बातचीत GPU से मेमोरी की ओर स्थानांतरित हो रही है

पिछले कई वर्षों से, AI अवसंरचना लागत के बारे में विवरण एक ही विषय द्वारा प्रभावित किया गया है: Nvidia GPU। ग्राफिक्स प्रोसेसिंग यूनिट की कमी, मूल्य निर्धारण, और आवंटन ने तकनीकी उद्योग भर में समाचार शीर्षक, निवेश निर्णय, और कॉर्पोरेट रणनीति को प्रेरित किया है। लेकिन उद्योग जो AI अवसंरचना अर्थशास्त्र के बारे में सोचता है, इसमें एक शांत बदलाव हो रहा है। तेजी से, प्रसंस्करण शक्ति नहीं बल्कि मेमोरी, AI प्रणाली के प्रदर्शन और लागत पर बाधा के रूप में उभर रही है।

यह गतिशीलता सहज है जब आप देखते हैं कि आधुनिक AI मॉडल वास्तव में कैसे काम करते हैं। एक बड़ा भाषा मॉडल बस उत्तर की गणना नहीं करता है। इसे सक्रिय मेमोरी में विशाल डेटा रखना चाहिए, अत्यंत उच्च गति पर सुलभ, प्रत्येक अनुरोध को संसाधित करने के लिए। मॉडल के भार—संख्यात्मक पैरामीटर जो इसके ज्ञान और क्षमताओं को एन्कोड करते हैं—अनुमान शुरू होने से पहले मेमोरी में लोड किया जाना चाहिए। सीमांत मॉडल जिनके पास सैकड़ों अरब या यहां तक ​​कि ट्रिलियन पैरामीटर हैं, इन भारों को धारण करने के लिए आवश्यक मेमोरी पारंपरिक कंप्यूटिंग सिस्टम को प्रदान करने के लिए डिज़ाइन किया गया है।

उच्च बैंडविड्थ मेमोरी: महत्वपूर्ण घटक

विशिष्ट मेमोरी प्रकार जो AI अवसंरचना के केंद्र में बन गया है, उच्च बैंडविड्थ मेमोरी है, जिसे HBM के रूप में जाना जाता है। उपभोक्ता कंप्यूटर में पाई जाने वाली मानक DRAM के विपरीत, HBM मेमोरी चिप्स की कई परतों को ऊर्ध्वाधर रूप से स्टैक करता है और उन्हें अत्यंत चौड़े डेटा बस से जोड़ता है, जो पारंपरिक मेमोरी की तुलना में कई परिमाण से तेजी से डेटा स्थानांतरण दर को सक्षम करता है। यह गति आवश्यक है क्योंकि Nvidia के H100 और H200 GPU जैसे AI त्वरक डेटा को मानक मेमोरी से बहुत तेजी से संसाधित कर सकते हैं। HBM के बिना, ये प्रोसेसर डेटा की प्रतीक्षा में अधिकांश समय व्यतीत करेंगे, उनकी कम्प्यूटेशनल क्षमताओं को बड़े पैमाने पर बेकार बना देंगे।

HBM को उन्नत पैकेजिंग तकनीकों का उपयोग करके AI त्वरक में भौतिक रूप से बांधा जाता है, एक एकीकृत मॉड्यूल बनाता है जहां मेमोरी और प्रोसेसिंग कसकर युग्मित होती हैं। यह एकीकरण AI कार्यभार के लिए आवश्यक बैंडविड्थ प्रदान करता है लेकिन आपूर्ति श्रृंखला निर्भरता भी बनाता है: प्रत्येक भेजा गया AI त्वरक को संगत HBM आवंटन की आवश्यकता होती है, और HBM उत्पादन क्षमता विश्व स्तर पर केवल तीन निर्माताओं के बीच केंद्रित है।

तीन-कंपनी अल्पाधिकार

वैश्विक HBM आपूर्ति तीन कंपनियों द्वारा नियंत्रित की जाती है: SK hynix, Samsung, और Micron। दक्षिण कोरियाई अर्धचालक निर्माता SK hynix वर्तमान में बाजार पर हावी है और Nvidia के लिए प्राथमिक HBM आपूर्तिकर्ता है। Samsung, कुल राजस्व द्वारा दुनिया की सबसे बड़ी मेमोरी चिप कंपनी होने के बावजूद, HBM उत्पादन में उपज समस्याओं से जूझा है और इस महत्वपूर्ण सेगमेंट में SK hynix को महत्वपूर्ण बाजार शेयर खो दिया है। अमेरिकी मेमोरी निर्माता Micron प्रतिस्पर्धी HBM उत्पादों के साथ जमीन हासिल कर रहा है लेकिन अपने कोरियाई प्रतिद्वंद्वियों की तुलना में छोटे पैमाने पर संचालित है।

यह केंद्रीकृत आपूर्ति संरचना HBM निर्माताओं के लिए महत्वपूर्ण मूल्य निर्धारण शक्ति और AI अवसंरचना कंपनियों के लिए असुरक्षा बनाती है। जब मांग आपूर्ति से अधिक हो, जैसा कि पिछले दो वर्षों में लगातार हो रहा है, कीमतें बढ़ती हैं और आवंटन सीधे खरीद प्रक्रिया के बजाय रणनीतिक वार्ता बन जाता है। AI डेटा सेंटर बनाने वाली कंपनियों को पहले से HBM प्रतिबद्धताओं को सुरक्षित करना चाहिए, अक्सर प्रीमियम कीमतों पर दीर्घकालीन आपूर्ति समझौतों पर हस्ताक्षर करते हुए यह सुनिश्चित करने के लिए कि वे अपने नियोजित तैनाती के लिए आवश्यक मेमोरी प्राप्त कर सकते हैं।

अर्थशास्त्र ध्यान देने योग्य है। HBM एक AI त्वरक मॉड्यूल की कुल लागत का 30 से 40 प्रतिशत का प्रतिनिधित्व कर सकता है, एक अनुपात जो बढ़ गया है क्योंकि HBM कीमतें व्यापक अर्धचालक बाजार से अधिक तेजी से बढ़ती हैं। एक नए डेटा सेंटर में हजारों AI त्वरक तैनात करने वाली कंपनी के लिए, अकेली मेमोरी बिल सैकड़ों मिलियन डॉलर तक पहुंच सकता है।

मांग क्यों बढ़ना जारी है

कई प्रवृत्तियां HBM और व्यापक रूप से AI-संगत मेमोरी की मांग को तीव्र करने के लिए एकत्रित हो रही हैं। सबसे स्पष्ट मॉडल आकार में निरंतर वृद्धि है। सीमांत AI मॉडल की प्रत्येक नई पीढ़ी अपने पूर्ववर्ती से काफी बड़ी होती है, इसके पैरामीटर को स्टोर करने के लिए आनुपातिक रूप से अधिक मेमोरी की आवश्यकता होती है। लेकिन मॉडल आकार समीकरण का केवल एक हिस्सा है।

अनुमान मांग प्रशिक्षण से अधिक मेमोरी खपत का एक महत्वपूर्ण चालक हो सकता है। जबकि किसी मॉडल को प्रशिक्षित करना एक एकबारी (या आवधिक) प्रक्रिया है जिसमें सीमित अवधि के लिए विशाल कम्प्यूटेशनल संसाधन की आवश्यकता होती है, अनुमान, वास्तव में उपयोगकर्ता के अनुरोधों का जवाब देने के लिए मॉडल को चलाने की प्रक्रिया, निरंतर है और उपयोगकर्ता अपनाने के साथ स्केल करता है। प्रत्येक चैट इंटरैक्शन, प्रत्येक कोड पूरा होना, प्रत्येक छवि पीढ़ी अनुरोध को मेमोरी में मॉडल भार लोड करना और प्रसंस्करण के दौरान उन्हें वहां रखना आवश्यक है।

जैसे-जैसे AI अनुप्रयोग फैल रहे हैं और उपयोगकर्ता अपनाना बढ़ रहा है, पूरे उद्योग में कुल अनुमान मांग तेजी से बढ़ रहा है। कंपनियां ग्राहक सेवा, सॉफ्टवेयर विकास, सामग्री निर्माण, डेटा विश्लेषण, और सैकड़ों अन्य अनुप्रयोगों में मॉडल तैनात कर रही हैं, प्रत्येक निरंतर मेमोरी मांग उत्पन्न करता है। इन सभी कार्यभार को एक साथ सेवा देने के लिए आवश्यक कुल मेमोरी अब वैश्विक HBM उत्पादन क्षमता का एक महत्वपूर्ण अंश प्रतिनिधित्व करता है।

संदर्भ विंडो विस्तार एक और कारक है। Anthropic के Claude और Google के Gemini जैसे मॉडल अब एक मिलियन टोकन या अधिक के संदर्भ विंडो प्रदान करते हैं, जिसका अर्थ है कि वे एक ही अनुरोध में बड़ी मात्रा में इनपुट पाठ प्रक्रिया कर सकते हैं। इन बड़े संदर्भों को संभालने के लिए पूरी प्रसंस्करण पाइपलाइन में मेमोरी में ध्यान राज्यों और मध्यवर्ती गणनाओं को संग्रहीत करना आवश्यक है, प्रति-अनुरोध मेमोरी खपत में जोड़ा जाता है।

अवसंरचना योजना पर लहर प्रभाव

मेमोरी बाधाएं AI अवसंरचना निर्णयों को ऐसे तरीकों से प्रभावित करना शुरू कर रही हैं जो मात्र दो साल पहले असंभव लग रहे थे। डेटा सेंटर आर्किटेक्ट मेमोरी प्रोविजनिंग को बाद की सोच के बजाय प्राथमिक बाधा के रूप में सिस्टम डिजाइन कर रहे हैं। क्लाउड प्रदाता विशेष रूप से AI अनुमान कार्यभार के लिए मेमोरी-अनुकूलित उदाहरण प्रकार बना रहे हैं। और हार्डवेयर कंपनियां उपन्यास मेमोरी प्रौद्योगिकियों की खोज कर रही हैं जो कम लागत पर उच्च क्षमता या बैंडविड्थ प्रदान कर सकते हैं।

मेमोरी चुनौती मॉडल विकास निर्णयों को भी प्रभावित करता है। कुछ AI लैब अपने मॉडल की मेमोरी पदचिह्न को कम करने के लिए क्षमता का त्याग किए बिना तकनीकों में भारी निवेश कर रहे हैं, जिसमें परिमाणीकरण शामिल है, जो मॉडल भार की संख्यात्मक सटीकता को कम करता है, और विशेषज्ञ वास्तुकला मिश्रण करता है, जो प्रत्येक अनुरोध के लिए मॉडल पैरामीटर का केवल एक सबसेट सक्रिय करता है। ये तकनीकें केवल शैक्षणिक व्यायाम नहीं हैं। वे तैनाती अर्थशास्त्र पर मेमोरी के लिए व्यावहारिक बाधा पर सीधे प्रतिक्रिया हैं।

व्यापक AI पारिस्थितिकी तंत्र के लिए, GPU से मेमोरी तक ध्यान बदलना पैमाने पर AI तैनाती की लागत और संभवतः वास्तव में निर्धारित करता है के बारे में समझ के परिपक्वता का प्रतिनिधित्व करता है। GPU की कमी आख्यान, हालांकि पूरी तरह से सुलझाया नहीं गया है, आंशिक रूप से उत्पादन क्षमता में वृद्धि और AMD जैसे प्रतिस्पर्धियों के प्रवेश और प्रमुख क्लाउड प्रदाताओं से कस्टम सिलिकॉन द्वारा संबोधित किया गया है। मेमोरी, इसके विपरीत, क्षमता विस्तार और कम प्रतिस्पर्धी विकल्पों के लिए लंबे समय तक सामना कर रहा है, जिससे यह एक अधिक निरंतर और संरचनात्मक रूप से अधिक चुनौतीपूर्ण बाधा बन जाता है।

आगे क्या आता है

मेमोरी कंपनियां महत्वाकांक्षी क्षमता विस्तार योजनाओं के साथ मांग का जवाब दे रही हैं। SK hynix नई उत्पादन सुविधाएं बना रहा है और अपने नवीनतम HBM3E उत्पादों के आउटपुट को बढ़ा रहा है। Samsung अपनी उपज समस्याओं को हल करने और अपनी प्रतिस्पर्धी स्थिति को ठीक करने के लिए काम कर रहा है। Micron संयुक्त राज्य और जापान दोनों में विस्तारित HBM उत्पादन में निवेश कर रहा है। लेकिन अर्धचालक विनिर्माण क्षमता का निर्माण वर्षों लगता है, और वर्तमान आपूर्ति और अनुमानित मांग के बीच का अंतर सुझाता है कि मेमोरी पूर्वानुमानित भविष्य के लिए AI अवसंरचना में एक सीमित कारक बनी रहेगी।

Compute Express Link जैसी उभरती प्रौद्योगिकियां, जो सिस्टम को कई प्रोसेसर के बीच मेमोरी पूल साझा करने की अनुमति देती हैं, और अनुसंधान प्रयोगशालाओं में विकास किए जा रहे नई मेमोरी आर्किटेक्चर अंत में बाधा को कम कर सकती हैं। लेकिन ये समाधान बड़े पैमाने पर व्यावसायिक तैनाती से वर्षों दूर हैं। इस बीच, AI उद्योग सीख रहा है कि अवसंरचना चुनौती किसी भी एकल घटक के बारे में नहीं है लेकिन प्रोसेसर, मेमोरी, नेटवर्किंग, शक्ति, और शीतलन के जटिल अंतःक्रिया के बारे में जो एक साथ निर्धारित करता है कि क्या संभव है और किस कीमत पर।

यह लेख TechCrunch की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें