Memory ஏன் அடுத்த AI constraint ஆக மாறுகிறது

AI systems மேலும் திறன்மிக்கதாக வளரும்போது, scale பற்றிய உரையாடல் பெரும்பாலும் raw compute-ஐ மையமாக்குகிறது. ஆனால் இன்னொரு வரம்பு கவனிக்கப்படாமல் இருக்க முடியாத அளவுக்கு முக்கியமாகிறது: memory. பெரிய language models, prompts, generated tokens, intermediate states, மற்றும் context ஆகியவற்றை response வழங்கும் போது கண்காணிக்க working memory தேவைப்படுகிறது. பொதுவாக key-value cache அல்லது KV cache என்று அழைக்கப்படும் அந்த தற்காலிக storage, பயன்பாட்டுடன் பெரிதாகி, விரைவில் செலவாக மாறக்கூடும்.

Google engineers, அந்தச் சுமையை கூர்மையாகக் குறைக்கும் ஒரு முறையை உருவாக்கியதாகக் கூறுகின்றனர். TurboQuant எனப்படும் இந்த அமைப்பு ஒரு compression technique ஆக விவரிக்கப்படுகிறது; AI models அதே தகவல் மற்றும் computational capability-ஐத் தக்கவைத்துக் கொண்டே தேவையான working memory-யை ஆறு மடங்கு வரை குறைக்க முடியும். இந்தக் கூற்று பரவலான பயன்பாட்டில் உறுதியாகினால், models தாங்களாகவே புத்திசாலியாக மாறாது; ஆனால் அவற்றை அளவோடு சேவை செய்வது மலிவாகவும் எளிதாகவும் மாறலாம்.

இது ஒரு முக்கியமான வேறுபாடு. AI industry பல ஆண்டுகளாக பெரிய models மற்றும் அதிக training runs-ஐத் தேடி வந்துள்ளது. TurboQuant equation-ன் operational பகுதியை குறிவைக்கிறது: பயனர்கள் பில்லியன் கணக்கான requests அனுப்பத் தொடங்கும்போது, அந்த models-ஐ திறம்பட இயக்க என்ன தேவை?

TurboQuant எதைத் தீர்க்க முயல்கிறது

செயல்பாட்டு processing நேரத்தில், AI systems உடனடி computational results மற்றும் பிற தொடர்புடைய data-வை memory-இல் சேமித்து coherent output-ஐ தொடர்ந்து உருவாக்குகின்றன. இது conversation, நீண்ட prompts, மற்றும் பல tokens கொண்ட tasks ஆகியவற்றுக்கு அத்தியாவசியம். context-ஐ model அதிகமாக வைத்திருக்கும்போது, அது சிக்கலான வேலைகளுக்கு அதிக பயனுள்ளதாக இருக்கும். ஆனால் context-ஐ தக்கவைக்க memory தேவை, மேலும் prompts நீளமாகவும் users அதிகமாகவும் ஆகும்போது memory use உயரும்.

சோர்ஸ் அறிக்கையின் படி, KV cache-இல் hundreds of thousands of tokens-ஐ சேமிக்க tens of gigabytes memory தேவைப்படலாம். இந்த தேவைகள் users எண்ணிக்கையுடன் linearly அதிகரிக்கின்றன. பிரபலமான chatbots அல்லது enterprise AI services-ஐ இயக்கும் providers-க்கு இது நேரடியான infrastructure பிரச்சினை. ஒரு model-க்கு போதுமான compute இருந்தாலும், memory throughput-ஐ கட்டுப்படுத்தி செலவைக் கூட்டலாம்.

TurboQuant quantization-ஐ பயன்படுத்தி இதைச் செய்கிறது; அதாவது values-ஐ குறைந்த bits-இல் பிரதிநிதித்துவப்படுத்தும் முறை. எளிமையாகச் சொன்னால், working memory-இல் உள்ள data-வை சிறிய வடிவத்திற்கு compress செய்து, model அதை மூல வடிவத்துக்குச் சமமாகப் பயன்படுத்தக்கூடியதாக மாற்றுகிறது. வாக்குறுதி என்னவென்றால் model அதிகம் கற்றுக்கொள்வது அல்ல, மாறாக அது ஏற்கனவே தேவையானதை மேலும் திறமையாக எடுத்துச் செல்லுவது.

Deployment-க்கு இது ஏன் முக்கியம்

Memory efficiency என்பது புதிய benchmarks அல்லது model launches போல glamor-உம் அல்ல; ஆனால் AI engineering-இல் மிக முக்கியமான பகுதிகளில் ஒன்றாக இருக்கக்கூடும். ஒரு model-க்கு அதே கணக்கீடுகளைச் செய்ய மிகவும் குறைவான working memory போதுமானால், providers அதே hardware-இல் அதிக பயனர்களை சேவை செய்யலாம் அல்லது ஒரு குறிப்பிட்ட workload-க்கு தேவையான specialized memory அளவைக் குறைக்கலாம்.

இது பல சூழல்களில் ஒரே நேரத்தில் முக்கியம். பெரிய data centers-இல் cost, hardware planning, மற்றும் system utilization ஆகியவற்றை இது பாதிக்கிறது. Enterprise deployments-இல், சில workloads நடைமுறைக்கு ஏற்றவையா அல்லது மிகுந்த செலவானவையா என்பதை இது தீர்மானிக்கிறது. சிறிய devices-இல், மேம்பட்ட efficiency மூலம் மேலும் திறன்மிக்க models cloud-ஐ முழுமையாக நம்பாமல் edge-க்கு அருகில் இயங்க முடியுமா என்பதை இது தீர்மானிக்கலாம்.

TurboQuant-ஐ AI மேலும் வளரும் hardware resources மீது குறைவாக சார்ந்திருக்கச் செய்யும் trend-இன் ஒரு பகுதியாகவும் அறிக்கை விவரிக்கிறது. இதன் பொருள் compute இனி முக்கியமல்ல என்பதல்ல. models ஒரு குறிப்பிட்ட capability நிலையை அடைந்த பிறகு, memory மற்றும் energy சுற்றிய systems engineering-இல் உள்ள மேம்பாடுகள் நடைமுறையில் அடுத்த performance gains-ன் பெரிய பகுதியைத் திறக்க முடியும் என்பதே.

இந்த தொழில்நுட்பத்தின் பரந்த முக்கியத்துவம்

Google ஏற்கனவே தன் neural networks-இல் quantization-ஐ பயன்படுத்தியுள்ளது, ஆனால் TurboQuant குறிப்பாக inference நேரத்தில் ஏற்படும் working-memory பிரச்சினையை நோக்குகிறது போலத் தெரிகிறது. இது முக்கியம், ஏனெனில் KV cache modern generative AI-இன் மையப் பிரச்சினையாக மாறியுள்ளது, குறிப்பாக long-context systems மற்றும் மிக அதிகப் பயன்படுத்தப்படும் chatbot services-இல்.

output quality-ஐ குறைக்காமல் memory pressure-ஐ குறைப்பது கடினம். மிகக் கடுமையாக compress செய்தால் model பயனுள்ள தகவலை இழக்கிறது. திறமையாக compress செய்தால், பயனருக்கு வெளிப்படையான tradeoff இல்லாமல் service இலகுவாகிறது. அறிக்கையில் Google-ன் முறை performance-ஐத் தக்கவைத்துக் கொண்டே memory தேவையை கடுமையாகக் குறைக்கிறது என்று கூறப்பட்டுள்ளது; அதனால்தான் இந்தக் கூற்று தனித்து நிற்கிறது.

production சூழல்களில் இது உறுதிசெய்யப்பட்டால், AI development பற்றிய ஒரு பெரிய பாடத்தையும் இது மீண்டும் வலுப்படுத்தும்: முன்னேற்றம் models-ஐ பெரியதாக ஆக்குவதால் மட்டுமே வருவதில்லை. அவற்றை சேவையளிக்கும் mechanics-ஐ மேம்படுத்துவதாலும் வருகிறது. Better caching, better quantization, better routing, மற்றும் better resource allocation ஆகியவை AI economy-ஐ மாற்ற முடியும்; பயனர்கள் அதை பின்னர் speed, availability, அல்லது price ஆக உணர்வார்கள்.

லாபம் முதலில் எங்கே தெரியும்

TurboQuant போன்ற technique-ன் உடனடி பலன் high-volume conversational AI-இல் அதிகமாகத் தோன்றும். Chatbots response உருவாக்கும் போது active context-ஐ தக்கவைக்கின்றன, session length மற்றும் user count அதிகரிக்கும் போது அந்த context-ன் செலவும் உயரும். memory consumption கணிசமாக குறைந்தால், providers அதிக hardware overhead இல்லாமல் நீண்ட conversations-ஐ ஆதரிக்க அதிக இடம் பெறுவர்.

இதற்கு மேலாக smartphones, laptops, அல்லது பிற local devices-இல் embedded products-க்கும் downstream benefits இருக்கலாம். source report, எதிர்கால on-device use cases-க்கும் அதிக திறன் கொண்ட AI operation முக்கியமாக இருக்கலாம் எனக் குறிப்பிடுகிறது, ஆரம்ப பலன்கள் centralized infrastructure-இல் தெரிந்தாலும்.

ஆனால் முக்கியக் கூற்று எல்லைக்குள் தான் உள்ளது. TurboQuant பெரும் அளவிலான hardware தேவைப் போக்குவதில்லை, மேலும் AI deployment-இன் எல்லா bottlenecks-ஐயும் இது தீர்ப்பதில்லை. இது inference-இல் உள்ள மிகச் செலவான recurring தேவைகளில் ஒன்றை மட்டும் குறிவைக்கிறது: output-ஐ யோசிக்கும் போது போதுமான working state கிடைத்திருக்க வேண்டும்.

AI-யின் அமைதியான breakthrough

முக்கியமான AI முன்னேற்றங்கள் எல்லாம் end users பெயரிடக்கூடியவையாக இருக்க வேண்டியதில்லை. பல முன்னேற்றங்கள் surface-க்கு கீழே, architecture மற்றும் serving layers-இல் நிகழ்கின்றன; அவையே ஒரு model demo-வில் மட்டுமே பிரமிப்பூட்டுவதா, அல்லது product ஆக நீடித்திருக்குமா என்பதை நிர்ணயிக்கின்றன.

TurboQuant அந்த pattern-க்கு பொருந்துகிறது. இது புதிய chatbot அல்ல, புதிய model family-யும் அல்ல. இது demand அதிகரிக்கும்போது மேலும் தீவிரமாகும் ஒரு நடைமுறைப் பிரச்சினைக்கான efficiency tool. AI access-ஐ விரிவுபடுத்த முயற்சிக்கும்போதே infrastructure மற்றும் energy constraints-ஐ எதிர்கொள்ளும் இந்த காலகட்டத்தில், இத்தகைய முன்னேற்றம் மற்றொரு headline model size வெடிப்பைவிட மதிப்புமிக்கதாக இருக்கலாம்.

Google-ன் முடிவுகள் lab-ஐத் தாண்டி செயல்பட்டால், AI-ன் எதிர்காலம் models என்ன அறிந்திருக்கின்றன என்பதில்தான் மட்டுமல்ல, வேலை செய்யும் போது அவை எவ்வளவு திறமையாக நினைவில் வைத்திருக்க முடிகிறது என்பதிலும் இருப்பதை TurboQuant நினைவூட்டும்.

இந்த கட்டுரை Live Science செய்தியின்பேரில் அமைந்தது. மூல கட்டுரையைப் படிக்கவும்.

Originally published on livescience.com