AI कार्यक्षमतेसाठी वेगळा मार्ग
AI मॉडेल्स सतत मोठी होत असताना, उद्योग एका परिचित तडजोडीसमोर उभा आहे: मोठ्या प्रणाली अधिक व्यापक क्षमता देतात, पण त्यांना अधिक ऊर्जा, अधिक मेमरी, आणि चालण्यासाठी अधिक वेळ लागतो. हे खर्च नियंत्रित करण्याचे अनेक प्रयत्न मॉडेल लहान करणे किंवा संख्यात्मक अचूकता कमी करणे यावर केंद्रित राहिले आहेत. आता एका वेगळ्या संशोधन-प्रवाहाचा युक्तिवाद आहे की चांगले उत्तर म्हणजे मोठ्या मॉडेल्समध्ये आधीपासूनच प्रचंड प्रमाणात असलेल्या एका गुणाभोवती हार्डवेअरची पुन्हा रचना करणे: शून्ये.
त्या गुणाला sparsity म्हणतात. अनेक neural network मध्ये, वजनं आणि activations यांची मोठी संख्या पूर्णपणे शून्य किंवा शून्याच्या इतकी जवळ असते की अचूकतेवर अर्थपूर्ण परिणाम न करता त्यांना शून्य मानता येते. सिद्धांततः, अशी जवळपास रिकामी क्षेत्रे एक मोठी संधी दर्शवतात. ज्यांचा काही किंवा अगदीच नगण्य वाटा असतो अशा मूल्यांवर multiply आणि add करण्यात ऊर्जा खर्च करण्याऐवजी, प्रणाली त्यांना वगळू शकते. शून्यांच्या लांबलचक पट्ट्या साठवण्याऐवजी, ती प्रत्यक्षात महत्त्वाच्या nonzero भागांवर लक्ष केंद्रित करू शकते.
समस्या अशी की मुख्य प्रवाहातील संगणकीय हार्डवेअर नैसर्गिकरीत्या या संरचनेचा लाभ घेत नाही. CPU आणि GPU dense numerical work साठी चांगले असतात, जिथे matrix मधील प्रत्येक जागा महत्त्वाची मानली जाते. Sparse computation अवघड असते, कारण मशीनला काय वगळायचे, संबंधित मूल्ये कार्यक्षमतेने कशी आणायची, आणि अनियमित data व्यवस्थापित करण्यात इतका overhead होऊ नये की लाभच नाहीसे होतील, हे माहिती असावे लागते.
संपूर्ण stack बदलणे का गरजेचे आहे, असे संशोधकांना का वाटते
स्टॅनफर्डचे अभियंते म्हणतात की sparsity गंभीरपणे घ्यायची असेल तर hardware, low-level firmware, आणि software यांसह संपूर्ण stack वर redesign आवश्यक आहे. त्यांच्या संशोधन गटाने असा chip विकसित केल्याची नोंद केली आहे जो sparse आणि पारंपरिक workloads दोन्ही कार्यक्षमतेने हाताळू शकतो, dense-computing assumptions वर जोडलेल्या awkward special caseसारखा नाही.
गटानुसार, परिणाम लक्षणीय होते. त्यांनी मूल्यांकन केलेल्या workloads मध्ये, या chip ने सरासरी CPU च्या एक सत्तरावा भाग इतकी ऊर्जा वापरली आणि गणना सरासरी सुमारे आठ पट वेगाने पूर्ण केली. हे आकडे workload नुसार बदलले, पण मुख्य दावा असा आहे की sparse-native design उद्योगाला उच्च-क्षमता मॉडेल्स सोडण्यास भाग न पाडता मोठे फायदे देऊ शकतो.
जर हा परिणाम scale वरही टिकला, तर त्याचे महत्त्व academic benchmarking पलीकडे जाईल. AI चे भविष्य आता केवळ algorithmic progress वरच नव्हे, तर power availability, cooling, carbon footprint, आणि increasingly large inference systems चालवण्याच्या खर्चावरही मर्यादित होत आहे. कमी-ऊर्जा computation चा कोणताही विश्वसनीय मार्ग धोरणात्मकदृष्ट्या महत्त्वाचा आहे.
लहान मॉडेल्सपेक्षा sparsity काय देते
Sparsity चे आकर्षण असे की त्यासाठी मॉडेलचा आकार किंवा performance सोडावी लागत नाही. लहान मॉडेल्स आणि lower-precision arithmetic खर्च कमी करू शकतात, पण ते अनेकदा क्षमता मर्यादितही करतात. Sparsity दुसरा पर्याय सुचवते: अतिशय मोठी मॉडेल्स कायम ठेवा, पण सर्वात कमी योगदान देणाऱ्या भागांवर compute वाया घालवू नका.
ही कल्पना विशेषतः संबंधित आहे कारण आघाडीच्या कंपन्या मोठमोठी system लाँच करत राहतात. लेखात नमूद केले आहे की Meta च्या ताज्या Llama release ने 2 trillion parameters गाठले, ज्यातून scale ऊर्जा मागणी किती झपाट्याने वाढवू शकतो हे दिसते. त्या parameters किंवा त्यांच्या activations चा मोठा भाग प्रत्यक्ष वापरात नगण्य असेल, तर त्यांना हुशारीने हाताळणारे hardware scale पासून माघार न घेता efficiency उघडू शकते.
प्रत्यक्षात, फायदे यात समाविष्ट असू शकतात:
- मॉडेल training किंवा inference साठी कमी ऊर्जा वापर
- Sparse workloads साठी कमी runtime
- शून्यांचे मोठे ब्लॉक्स साठवण्याची गरज नसल्याने कमी memory burden
- मोठ्या प्रमाणातील AI deployment साठी कमी carbon footprint
हे किरकोळ सुधारणा नाहीत. त्या आधुनिक AI च्या अर्थकारण आणि पर्यावरणीय टिकावाशी थेट संबंधित आहेत.
Sparse computing प्रत्यक्षात आणण्याचे आव्हान
Sparsity अनेक वर्षांपासून संकल्पनात्मकदृष्ट्या आकर्षक राहिली असली, तरी तिचा लाभ घेणे कठीण आहे. Dense hardware नियमिततेवर काम करते. Sparse data स्वभावतः अनियमित असते. याचा अर्थ डिझायनर्सना indexing, routing, scheduling, आणि memory access यांसारख्या समस्या सोडवाव्या लागतात, आणि अनेक मूल्ये अनुपस्थित असताना त्या अधिक गुंतागुंतीच्या होतात.
म्हणूनच Stanford संघ stack-wide design वर भर देतो. firmware आणि software अजूनही dense execution patterns गृहीत धरत असतील, तर एकट्या specialized accelerator ने पुरेसे होणार नाही. साधनांनी sparse representations समजली पाहिजेत, hardware ने त्यांना कार्यक्षमतेने प्रक्रिया केली पाहिजे, आणि संपूर्ण system ने “zeros वगळा” याचा अर्थ “zeros कुठे आहेत हे शोधण्यात वेळ घालवा” असा होऊ देता कामा नये.
ही systems perspectiveच या कामाला महत्त्व देणारी आहे. ती sparsity ला एका algorithmic trick प्रमाणे मांडत नाही. ती AI workloads मशीनवर कसे बसवायचे याच्या architectural पुनर्विचाराप्रमाणे मांडते.
मोठ्या AI buildout साठी हे का महत्त्वाचे आहे
उद्योगाची compute साठीची तातडीची भूक कमी होताना दिसत नाही. काही तज्ज्ञ म्हणतात की साधे scaling diminishing returns च्या टप्प्यावर येत आहे, तरीही कंपन्या मोठी मॉडेल्स आणि अधिक व्यापक deployment पुढे नेत आहेत. त्यामुळे ऊर्जा कार्यक्षमता ही दुय्यम engineering चिंता न राहता first-order problem बनते.
जर प्रयोगशाळेपलीकडचे फायदे टिकले, तर sparse-native hardware हे सर्वात महत्त्वाच्या उत्तरांपैकी एक ठरू शकते. ते प्रगत मॉडेल्स व्यवहार्य ठेवत power draw आणि runtime कमी करण्याचा मार्ग देईल. त्याचा परिणाम पुढील गोष्टींवर होऊ शकतो:
- डेटा सेंटर डिझाइन आणि ऑपरेटिंग खर्च
- मोठ्या मॉडेल्सना स्केलवर सेवा देण्याची शक्यता
- कडक power limits असलेली edge किंवा embedded AI systems
- AI वाढीभोवतीचे हवामान आणि पायाभूत सुविधा वाद
महत्त्वाचे म्हणजे, भविष्यातील मॉडेल्स कशी तयार केली जातील हेही यामुळे बदलू शकते. hardware जेव्हा sparsity ला थेट बक्षीस देईल, तेव्हा model designers architectures आणि training methods अधिक sparsity उघड होतील अशा प्रकारे optimize करू शकतात.
यथार्थवादी पण महत्त्वपूर्ण प्रगती
बळकट संशोधन परिणाम आणि मुख्य प्रवाहातील स्वीकार यामध्ये अजूनही दरी आहे. सध्याच्या AI infrastructure मध्ये dense computation साठी तयार केलेल्या GPUs आणि software ecosystems मध्ये खोल गुंतवणूक आहे. नवीन hardware ने केवळ ते काम करते हेच नव्हे, तर ते integrate होते, scale होते, आणि switching costs योग्य ठरवते हेही दाखवावे लागेल.
तरीही, या संशोधनातून येणारा युक्तिवाद दुर्लक्षित करणे कठीण आहे. मोठ्या AI मॉडेल्समध्ये पारंपरिक पद्धतीने प्रक्रिया करण्याची गरज नसलेली मूल्ये भरलेली असतील, तर सध्याचा hardware stack खरी efficiency टेबलावर सोडून देत आहे. Sparse computing ती inefficiency एका design target मध्ये रूपांतरित करते.
ज्या क्षणी AI progress benchmark scores इतकाच ऊर्जा मर्यादांशी तुलना करून मोजला जात आहे, त्या क्षणी हे क्षेत्रातील सर्वात महत्त्वाच्या engineering targets पैकी एक ठरू शकते. शक्तिशाली AI चे भविष्य कदाचित मोठी मॉडेल्स काढून टाकण्यापेक्षा, ती वापरत नाहीत ते शेवटी compute करणे थांबवायला शिकण्यात अधिक अवलंबून असेल.
हा लेख IEEE Spectrum च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on spectrum.ieee.org



