मेमोरी क्यों अगली AI बाधा बन रही है
जैसे-जैसे AI सिस्टम अधिक सक्षम होते जा रहे हैं, पैमाने को लेकर बातचीत आम तौर पर raw compute पर केंद्रित रहती है। लेकिन एक और सीमा को नज़रअंदाज़ करना मुश्किल होता जा रहा है: मेमोरी। बड़े language models को prompts, generated tokens, intermediate states, और context का हिसाब रखने के लिए working memory चाहिए होती है, जब वे उपयोगकर्ताओं को जवाब दे रहे होते हैं। यह अस्थायी storage, जिसे आम तौर पर key-value cache या KV cache कहा जाता है, उपयोग के साथ बढ़ती है और जल्दी महंगी पड़ सकती है।
Google इंजीनियरों का कहना है कि उन्होंने इस बोझ को तेज़ी से घटाने का एक तरीका विकसित किया है। TurboQuant नाम की यह प्रणाली एक compression technique के रूप में वर्णित है, जो AI models को समान जानकारी और computational capability बनाए रखते हुए आवश्यक working memory को छह गुना तक घटा सकती है। यदि यह दावा व्यापक उपयोग में सही साबित होता है, तो इससे models अपने-आप अधिक स्मार्ट नहीं होंगे, लेकिन उन्हें बड़े पैमाने पर चलाना सस्ता और आसान हो सकता है।
यह एक महत्वपूर्ण अंतर है। AI उद्योग वर्षों से बड़े models और विशाल training runs के पीछे भाग रहा है। TurboQuant equation के operational पक्ष को लक्षित करता है: जब users अरबों requests भेजने लगें, तब उन models को कुशलता से चलाए रखने के लिए क्या चाहिए।
TurboQuant किस समस्या को हल करना चाहता है
सक्रिय processing के दौरान, AI systems ताज़ा computational results और अन्य relevant data को memory में रखते हैं ताकि coherent output बनाना जारी रख सकें। यह conversation, लंबे prompts, और कई tokens वाले tasks के लिए आवश्यक है। जितना अधिक context model एक साथ रखता है, उतना ही वह जटिल काम के लिए उपयोगी हो सकता है। लेकिन context बनाए रखने के लिए memory चाहिए, और जैसे-जैसे prompts लंबे होते हैं और उपयोगकर्ता बढ़ते हैं, memory use भी बढ़ता जाता है।
स्रोत रिपोर्ट के अनुसार, KV cache में hundreds of thousands of tokens store करने के लिए tens of gigabytes memory की आवश्यकता हो सकती है। ये मांगें users की संख्या के साथ linearly बढ़ती हैं। लोकप्रिय chatbots या enterprise AI services चलाने वाले providers के लिए यह एक सीधी infrastructure समस्या बन जाती है। भले ही किसी model के पास पर्याप्त compute हो, memory throughput को सीमित कर सकती है और cost बढ़ा सकती है।
TurboQuant quantization का उपयोग करके इसका समाधान करता है, जो values को कम bits में दर्शाने की विधि है। सरल शब्दों में, यह working memory में मौजूद data को एक छोटे रूप में compress करता है जिसे model मूल के समान उपयोग कर सकता है। वादा यह नहीं है कि model अधिक सीखता है, बल्कि यह कि वह जो पहले से चाहिए उसे अधिक दक्षता से साथ रखता है।



