Memory पुढचा AI constraint का बनत आहे

AI systems अधिक सक्षम होत असताना, scale बद्दलची चर्चा बहुतेक वेळा raw compute भोवती फिरते. पण आणखी एक मर्यादा दुर्लक्षित करणे कठीण होत चालले आहे: memory. मोठ्या language models-ना users ना प्रतिसाद देताना prompts, generated tokens, intermediate states, आणि context लक्षात ठेवण्यासाठी working memory लागते. key-value cache किंवा KV cache म्हणून ओळखले जाणारे हे तात्पुरते storage, usage वाढत जाईल तशी झपाट्याने महाग पडू शकते.

Google engineers म्हणतात की त्यांनी हा भार मोठ्या प्रमाणात कमी करण्याचा एक मार्ग विकसित केला आहे. TurboQuant नावाची ही प्रणाली compression technique म्हणून वर्णन केली जाते; AI models ना समान माहिती आणि computational capability कायम ठेवत आवश्यक working memory सहा पटपर्यंत कमी करता येऊ शकते. हा दावा व्यापक वापरात खरा ठरला, तर models आपोआप अधिक हुशार होणार नाहीत, पण त्यांना scale वर सेवा देणे स्वस्त आणि सोपे होऊ शकते.

हा महत्त्वाचा फरक आहे. AI industry वर्षानुवर्षे मोठ्या models आणि मोठ्या training runs च्या मागे धावत आली आहे. TurboQuant equation च्या operational बाजूला लक्ष्य करते: users जेव्हा अब्जावधी requests पाठवायला सुरुवात करतात, तेव्हा त्या models ना कार्यक्षमपणे चालवण्यासाठी काय लागते?

TurboQuant कोणती समस्या सोडवू पाहत आहे

Active processing दरम्यान, AI systems तात्काळ computational results आणि इतर संबंधित data memory मध्ये साठवतात जेणेकरून coherent output तयार करत राहता येईल. हे conversation, लांब prompts, आणि अनेक tokens असलेल्या tasks साठी आवश्यक आहे. model जितका context एकावेळी ठेवतो, तितका तो गुंतागुंतीच्या कामांसाठी उपयुक्त ठरू शकतो. पण context राखण्यासाठी memory लागते, आणि prompts वाढले तसे आणि users वाढले तसे memory वापरही वाढतो.

source report नुसार, KV cache मध्ये hundreds of thousands of tokens साठवण्यासाठी tens of gigabytes memory लागते. ही मागणी users च्या संख्येसोबत linearly वाढते. लोकप्रिय chatbots किंवा enterprise AI services चालवणाऱ्या providers साठी ही थेट infrastructure समस्या आहे. model कडे compute पुरेसा असला तरी memory throughput मर्यादित होऊन खर्च वाढू शकतो.

TurboQuant quantization वापरते, म्हणजे values कमी bits मध्ये दाखवण्याची पद्धत. सोप्या भाषेत, हे working memory मधील data लहान स्वरूपात compress करते, जेणेकरून model त्याचा वापर मूळसारखाच करू शकेल. वचन हे नाही की model अधिक शिकतो, तर ते जे आधीच आवश्यक आहे ते अधिक कार्यक्षमपणे वाहून नेतो.