Memory ஏன் அடுத்த AI constraint ஆக மாறுகிறது
AI systems மேலும் திறன்மிக்கதாக வளரும்போது, scale பற்றிய உரையாடல் பெரும்பாலும் raw compute-ஐ மையமாக்குகிறது. ஆனால் இன்னொரு வரம்பு கவனிக்கப்படாமல் இருக்க முடியாத அளவுக்கு முக்கியமாகிறது: memory. பெரிய language models, prompts, generated tokens, intermediate states, மற்றும் context ஆகியவற்றை response வழங்கும் போது கண்காணிக்க working memory தேவைப்படுகிறது. பொதுவாக key-value cache அல்லது KV cache என்று அழைக்கப்படும் அந்த தற்காலிக storage, பயன்பாட்டுடன் பெரிதாகி, விரைவில் செலவாக மாறக்கூடும்.
Google engineers, அந்தச் சுமையை கூர்மையாகக் குறைக்கும் ஒரு முறையை உருவாக்கியதாகக் கூறுகின்றனர். TurboQuant எனப்படும் இந்த அமைப்பு ஒரு compression technique ஆக விவரிக்கப்படுகிறது; AI models அதே தகவல் மற்றும் computational capability-ஐத் தக்கவைத்துக் கொண்டே தேவையான working memory-யை ஆறு மடங்கு வரை குறைக்க முடியும். இந்தக் கூற்று பரவலான பயன்பாட்டில் உறுதியாகினால், models தாங்களாகவே புத்திசாலியாக மாறாது; ஆனால் அவற்றை அளவோடு சேவை செய்வது மலிவாகவும் எளிதாகவும் மாறலாம்.
இது ஒரு முக்கியமான வேறுபாடு. AI industry பல ஆண்டுகளாக பெரிய models மற்றும் அதிக training runs-ஐத் தேடி வந்துள்ளது. TurboQuant equation-ன் operational பகுதியை குறிவைக்கிறது: பயனர்கள் பில்லியன் கணக்கான requests அனுப்பத் தொடங்கும்போது, அந்த models-ஐ திறம்பட இயக்க என்ன தேவை?
TurboQuant எதைத் தீர்க்க முயல்கிறது
செயல்பாட்டு processing நேரத்தில், AI systems உடனடி computational results மற்றும் பிற தொடர்புடைய data-வை memory-இல் சேமித்து coherent output-ஐ தொடர்ந்து உருவாக்குகின்றன. இது conversation, நீண்ட prompts, மற்றும் பல tokens கொண்ட tasks ஆகியவற்றுக்கு அத்தியாவசியம். context-ஐ model அதிகமாக வைத்திருக்கும்போது, அது சிக்கலான வேலைகளுக்கு அதிக பயனுள்ளதாக இருக்கும். ஆனால் context-ஐ தக்கவைக்க memory தேவை, மேலும் prompts நீளமாகவும் users அதிகமாகவும் ஆகும்போது memory use உயரும்.
சோர்ஸ் அறிக்கையின் படி, KV cache-இல் hundreds of thousands of tokens-ஐ சேமிக்க tens of gigabytes memory தேவைப்படலாம். இந்த தேவைகள் users எண்ணிக்கையுடன் linearly அதிகரிக்கின்றன. பிரபலமான chatbots அல்லது enterprise AI services-ஐ இயக்கும் providers-க்கு இது நேரடியான infrastructure பிரச்சினை. ஒரு model-க்கு போதுமான compute இருந்தாலும், memory throughput-ஐ கட்டுப்படுத்தி செலவைக் கூட்டலாம்.
TurboQuant quantization-ஐ பயன்படுத்தி இதைச் செய்கிறது; அதாவது values-ஐ குறைந்த bits-இல் பிரதிநிதித்துவப்படுத்தும் முறை. எளிமையாகச் சொன்னால், working memory-இல் உள்ள data-வை சிறிய வடிவத்திற்கு compress செய்து, model அதை மூல வடிவத்துக்குச் சமமாகப் பயன்படுத்தக்கூடியதாக மாற்றுகிறது. வாக்குறுதி என்னவென்றால் model அதிகம் கற்றுக்கொள்வது அல்ல, மாறாக அது ஏற்கனவே தேவையானதை மேலும் திறமையாக எடுத்துச் செல்லுவது.



