Memory ఎందుకు తదుపరి AI constraintగా మారుతోంది
AI systems మరింత శక్తివంతంగా మారుతున్నకొద్దీ, scale గురించిన చర్చ సాధారణంగా raw compute చుట్టూ తిరుగుతుంది. కానీ ఇంకో పరిమితి మరింత నిర్లక్ష్యం చేయలేనంత స్పష్టమవుతోంది: memory. పెద్ద language models, prompts, generated tokens, intermediate states, మరియు contextను usersకు స్పందిస్తున్నప్పుడు గుర్తుంచుకోవడానికి working memory అవసరం. key-value cache లేదా KV cache అని పిలిచే ఈ తాత్కాలిక storage, usageతో పెరుగుతూ ఖర్చును త్వరగా పెంచగలదు.
Google engineers ఆ భారాన్ని గణనీయంగా తగ్గించే ఒక మార్గాన్ని అభివృద్ధి చేశామని చెబుతున్నారు. TurboQuant అనే ఈ వ్యవస్థ ఒక compression techniqueగా వివరించబడింది; అదే information మరియు computational capabilityను నిలుపుకుంటూనే AI modelsకు అవసరమైన working memoryను ఆరు రెట్లు వరకు తగ్గించగలదు. ఈ క్లెయిమ్ విస్తృతంగా నిజమైతే, models స్వయంగా మరింత తెలివిగా మారవు, కానీ వాటిని scaleలో సేవ చేయడం తక్కువ ఖర్చుతో, సులభంగా మారవచ్చు.
ఇది ముఖ్యమైన తేడా. AI industry ఏళ్లుగా పెద్ద models, పెద్ద training runs కోసం పరుగెడుతోంది. TurboQuant equationలో operational భాగాన్ని లక్ష్యంగా చేస్తోంది: users బిలియన్ల requests పంపడం ప్రారంభించిన తర్వాత, ఆ modelsను సమర్థవంతంగా నడపడానికి ఏమి అవసరం?
TurboQuant ఏ సమస్యను పరిష్కరించాలనుకుంటోంది
Active processing సమయంలో, AI systems తక్షణ computational results మరియు ఇతర సంబంధిత dataను memoryలో నిల్వ చేస్తాయి, తద్వారా coherent outputను కొనసాగించగలుగుతాయి. ఇది conversation, పొడవైన prompts, మరియు అనేక tokens ఉన్న tasksకు అవసరం. model ఒకేసారి ఎక్కువ contextను ఉంచినకొద్దీ, అది సంక్లిష్ట పనులకు మరింత ఉపయోగపడుతుంది. కానీ contextను నిలుపుకోవడం memoryను అవసరం చేస్తుంది, మరియు prompts పొడవుగా, users సంఖ్య ఎక్కువగా మారినకొద్దీ memory వినియోగం పెరుగుతుంది.
మూల నివేదిక ప్రకారం, KV cacheలో hundreds of thousands of tokens నిల్వ చేయడానికి tens of gigabytes memory అవసరం కావచ్చు. ఈ డిమాండ్లు users సంఖ్యకు అనుగుణంగా linearly పెరుగుతాయి. ప్రజాదరణ ఉన్న chatbots లేదా enterprise AI services నడిపే providersకు ఇది నేరుగా infrastructure సమస్య. ఒక modelకు compute సరిపోతున్నా, memory throughputను పరిమితం చేసి ఖర్చును పెంచుతుంది.
TurboQuant quantizationను ఉపయోగిస్తుంది, అంటే valuesను తక్కువ bitsతో represent చేసే విధానం. సులభంగా చెప్పాలంటే, ఇది working memoryలోని dataను చిన్న రూపంలో compress చేసి, model దానిని అసలైనదిలాగే ఉపయోగించగలిగేలా చేస్తుంది. వాగ్దానం model మరింత నేర్చుకుంటుందనే కాదు, దానికి ఇప్పటికే అవసరమైనదాన్ని మరింత సమర్థవంతంగా మోసుకెళ్లగలగడం.



