Memory কেন পরের AI constraint হয়ে উঠছে

AI systems যত বেশি সক্ষম হচ্ছে, scale নিয়ে আলোচনা সাধারণত raw compute-এর ওপর কেন্দ্রীভূত থাকে। কিন্তু আরেকটি সীমাবদ্ধতা উপেক্ষা করা এখন কঠিন হয়ে যাচ্ছে: memory। বড় language models-কে users-এর প্রশ্নের উত্তর দেওয়ার সময় prompts, generated tokens, intermediate states, এবং context ট্র্যাক রাখতে working memory লাগে। key-value cache বা KV cache নামে পরিচিত এই অস্থায়ী storage, usage-এর সঙ্গে সঙ্গে বাড়ে এবং দ্রুত ব্যয়বহুল হয়ে উঠতে পারে।

Google engineers বলছেন, তারা এই চাপ sharply কমানোর একটি উপায় তৈরি করেছেন। TurboQuant নামে এই system-টি compression technique হিসেবে বর্ণনা করা হয়েছে, যা একই information এবং computational capability বজায় রেখেও AI models-এর জন্য প্রয়োজনীয় working memory ছয় গুণ পর্যন্ত কমাতে পারে। যদি এই দাবি বিস্তৃত ব্যবহারে সত্যি প্রমাণিত হয়, তবে models নিজে থেকে আরও বুদ্ধিমান হবে না; কিন্তু সেগুলো স্কেলে চালানো আরও সস্তা এবং সহজ হতে পারে।

এটি একটি গুরুত্বপূর্ণ পার্থক্য। AI industry বহু বছর ধরে বড় models এবং বড় training runs-এর পেছনে ছুটেছে। TurboQuant equation-এর operational অংশকে লক্ষ্য করে: users যখন বিলিয়ন বিলিয়ন requests পাঠাতে শুরু করে, তখন সেই models-কে দক্ষভাবে চালাতে কী লাগে।

TurboQuant কী সমস্যা সমাধান করতে চাইছে

সক্রিয় processing-এর সময়, AI systems তাৎক্ষণিক computational results এবং অন্যান্য প্রাসঙ্গিক data memory-তে রাখে যাতে coherent output তৈরি চালিয়ে যেতে পারে। এটি conversation, দীর্ঘ prompts, এবং বহু tokens-যুক্ত tasks-এর জন্য অপরিহার্য। model যত বেশি context একসঙ্গে ধরে রাখতে পারে, ততই তা জটিল কাজের জন্য উপযোগী হয়। কিন্তু context ধরে রাখতে memory লাগে, আর prompts দীর্ঘ হলে এবং users বাড়লে memory ব্যবহারও বাড়ে।

source report অনুযায়ী, KV cache-এ hundreds of thousands of tokens সংরক্ষণ করতে tens of gigabytes memory প্রয়োজন হতে পারে। এই চাহিদাগুলো users-এর সংখ্যার সঙ্গে linearly বাড়ে। জনপ্রিয় chatbots বা enterprise AI services চালানো providers-দের জন্য এটি সরাসরি infrastructure সমস্যা। কোনও model-এর compute যথেষ্ট হলেও, memory throughput সীমিত হয়ে খরচ বাড়াতে পারে।

TurboQuant quantization ব্যবহার করে, অর্থাৎ values-কে কম bits-এ প্রকাশ করার পদ্ধতি। সহজভাবে বললে, এটি working memory-র data-কে ছোট আকারে compress করে, যাতে model সেটিকে মূলের মতোই ব্যবহার করতে পারে। প্রতিশ্রুতি হলো model আরও শেখে এমন নয়, বরং যা আগে থেকেই দরকার তা আরও দক্ষভাবে বহন করতে পারে।