Why memory is becoming the next AI constraint
مع ازدياد قدرات أنظمة الذكاء الاصطناعي، يتركز الحديث عن التوسع عادة على القدرة الحاسوبية الخام. لكن هناك قيدًا آخر يصبح من الصعب تجاهله أكثر فأكثر: الذاكرة. تحتاج نماذج اللغة الكبيرة إلى ذاكرة عاملة لتتبع المطالبات، والرموز المولدة، والحالات الوسيطة، والسياق أثناء الرد على المستخدمين. هذا التخزين المؤقت، المعروف عادة باسم ذاكرة المفتاح-القيمة أو KV cache، يتوسع مع الاستخدام وقد يصبح مكلفًا بسرعة.
يقول مهندسو Google إنهم طوروا طريقة لتقليص هذا العبء بشكل كبير. ويُوصَف النظام، المسمى TurboQuant، بأنه تقنية ضغط يمكنها تقليل الذاكرة العاملة التي تحتاجها نماذج الذكاء الاصطناعي بما يصل إلى ست مرات مع الحفاظ على المعلومات نفسها والقدرة الحاسوبية نفسها. وإذا ثبت هذا الادعاء على نطاق واسع، فلن يجعل النماذج أذكى بحد ذاته، لكنه قد يجعل تشغيلها أقل كلفة وأسهل على نطاق واسع.
وهذا تمييز مهم. لقد أمضت صناعة الذكاء الاصطناعي سنوات وهي تلاحق نماذج أكبر وعمليات تدريب أوسع. يستهدف TurboQuant الجانب التشغيلي من المعادلة: ما يتطلبه إبقاء تلك النماذج تعمل بكفاءة بعد أن يبدأ المستخدمون في إرسال الطلبات بالمليارات.
What TurboQuant is trying to solve
أثناء المعالجة النشطة، تخزن أنظمة الذكاء الاصطناعي النتائج الحسابية الفورية وبيانات أخرى ذات صلة في الذاكرة حتى تتمكن من مواصلة توليد مخرجات مترابطة. وهذا أمر أساسي للمحادثة، والمطالبات الطويلة، والمهام التي تتضمن عددًا كبيرًا من الرموز. وكلما احتفظ النموذج بسياق أكثر في الوقت نفسه، أصبح أكثر فائدة في الأعمال المعقدة. لكن الاحتفاظ بهذا السياق يتطلب ذاكرة، ويزداد استخدامها مع زيادة طول المطالبات وزيادة عدد المستخدمين.
وبحسب التقرير الأصلي، فإن تخزين مئات الآلاف من الرموز في KV cache قد يتطلب عشرات الجيجابايت من الذاكرة. وتتوسع هذه المتطلبات خطيًا مع عدد المستخدمين. وبالنسبة إلى مقدمي الخدمات الذين يشغلون روبوتات دردشة شائعة أو خدمات ذكاء اصطناعي للمؤسسات، فإن ذلك يخلق مشكلة مباشرة في البنية التحتية. وحتى إذا كان لدى النموذج قدرة حاسوبية كافية، فقد تحد الذاكرة من معدل المعالجة وترفع التكاليف.
يعالج TurboQuant ذلك باستخدام التكميم، وهي طريقة تمثل القيم بعدد أقل من البتات. ببساطة، تضغط البيانات في الذاكرة العاملة إلى شكل أصغر يمكن للنموذج الاستمرار في استخدامه كما لو كان الأصل. والوعد هنا ليس أن النموذج يتعلم أكثر، بل أنه يحمل ما يحتاجه بالفعل بكفاءة أعلى.



