Why memory is becoming the next AI constraint
مع ازدياد قدرات أنظمة الذكاء الاصطناعي، يتركز الحديث عن التوسع عادة على القدرة الحاسوبية الخام. لكن هناك قيدًا آخر يصبح من الصعب تجاهله أكثر فأكثر: الذاكرة. تحتاج نماذج اللغة الكبيرة إلى ذاكرة عاملة لتتبع المطالبات، والرموز المولدة، والحالات الوسيطة، والسياق أثناء الرد على المستخدمين. هذا التخزين المؤقت، المعروف عادة باسم ذاكرة المفتاح-القيمة أو KV cache، يتوسع مع الاستخدام وقد يصبح مكلفًا بسرعة.
يقول مهندسو Google إنهم طوروا طريقة لتقليص هذا العبء بشكل كبير. ويُوصَف النظام، المسمى TurboQuant، بأنه تقنية ضغط يمكنها تقليل الذاكرة العاملة التي تحتاجها نماذج الذكاء الاصطناعي بما يصل إلى ست مرات مع الحفاظ على المعلومات نفسها والقدرة الحاسوبية نفسها. وإذا ثبت هذا الادعاء على نطاق واسع، فلن يجعل النماذج أذكى بحد ذاته، لكنه قد يجعل تشغيلها أقل كلفة وأسهل على نطاق واسع.
وهذا تمييز مهم. لقد أمضت صناعة الذكاء الاصطناعي سنوات وهي تلاحق نماذج أكبر وعمليات تدريب أوسع. يستهدف TurboQuant الجانب التشغيلي من المعادلة: ما يتطلبه إبقاء تلك النماذج تعمل بكفاءة بعد أن يبدأ المستخدمون في إرسال الطلبات بالمليارات.
What TurboQuant is trying to solve
أثناء المعالجة النشطة، تخزن أنظمة الذكاء الاصطناعي النتائج الحسابية الفورية وبيانات أخرى ذات صلة في الذاكرة حتى تتمكن من مواصلة توليد مخرجات مترابطة. وهذا أمر أساسي للمحادثة، والمطالبات الطويلة، والمهام التي تتضمن عددًا كبيرًا من الرموز. وكلما احتفظ النموذج بسياق أكثر في الوقت نفسه، أصبح أكثر فائدة في الأعمال المعقدة. لكن الاحتفاظ بهذا السياق يتطلب ذاكرة، ويزداد استخدامها مع زيادة طول المطالبات وزيادة عدد المستخدمين.
وبحسب التقرير الأصلي، فإن تخزين مئات الآلاف من الرموز في KV cache قد يتطلب عشرات الجيجابايت من الذاكرة. وتتوسع هذه المتطلبات خطيًا مع عدد المستخدمين. وبالنسبة إلى مقدمي الخدمات الذين يشغلون روبوتات دردشة شائعة أو خدمات ذكاء اصطناعي للمؤسسات، فإن ذلك يخلق مشكلة مباشرة في البنية التحتية. وحتى إذا كان لدى النموذج قدرة حاسوبية كافية، فقد تحد الذاكرة من معدل المعالجة وترفع التكاليف.
يعالج TurboQuant ذلك باستخدام التكميم، وهي طريقة تمثل القيم بعدد أقل من البتات. ببساطة، تضغط البيانات في الذاكرة العاملة إلى شكل أصغر يمكن للنموذج الاستمرار في استخدامه كما لو كان الأصل. والوعد هنا ليس أن النموذج يتعلم أكثر، بل أنه يحمل ما يحتاجه بالفعل بكفاءة أعلى.
Why this matters for deployment
ليست كفاءة الذاكرة جذابة مثل المعايير الجديدة أو إطلاق النماذج، لكنها قد تكون من أكثر مجالات هندسة الذكاء الاصطناعي تأثيرًا. فإذا احتاج نموذج إلى ذاكرة عاملة أقل بكثير لأداء الحسابات نفسها، فقد يتمكن المزودون من خدمة عدد أكبر من المستخدمين باستخدام العتاد نفسه أو تقليل كمية الذاكرة المتخصصة المطلوبة لحمل عمل معين.
وهذا مهم في عدة بيئات في الوقت نفسه. ففي مراكز البيانات الكبيرة، يؤثر ذلك في التكلفة وتخطيط العتاد واستغلال النظام. وفي عمليات النشر المؤسسية، يمكن أن يحدد ما إذا كانت بعض أحمال العمل عملية أم باهظة التكلفة. وفي الأجهزة الأصغر، يمكن لتحسين الكفاءة أن يؤثر في ما إذا كانت النماذج الأكثر قدرة ستعمل أقرب إلى الحافة بدلاً من الاعتماد الكامل على السحابة.
ويصوغ التقرير الأصلي TurboQuant أيضًا بوصفه جزءًا من اتجاه نحو جعل الذكاء الاصطناعي المتقدم أقل اعتمادًا على الزيادات المستمرة في موارد العتاد. وهذا لا يعني أن القدرة الحاسوبية لم تعد مهمة. بل يعني أنه عندما تصل النماذج إلى مستوى معين من القدرة، فإن تحسين هندسة الأنظمة حول الذاكرة والطاقة قد يفتح عمليًا جزءًا كبيرًا من مكاسب الأداء التالية.
The broader technical significance
كانت Google قد استخدمت التكميم من قبل في شبكاتها العصبية، لكن يبدو أن TurboQuant موجه تحديدًا إلى مشكلة الذاكرة العاملة أثناء الاستدلال. وهذا مهم لأن KV cache أصبح قضية مركزية في الذكاء الاصطناعي التوليدي الحديث، خاصة في أنظمة السياق الطويل وخدمات روبوتات الدردشة كثيفة الاستخدام.
إن تقليل ضغط الذاكرة من دون الإضرار بجودة المخرجات أمر صعب. فإذا كان الضغط مفرطًا، يفقد النموذج معلومات مفيدة. وإذا كان الضغط فعالًا، تصبح الخدمة أخف من دون مقايضات واضحة للمستخدم. ويقول التقرير إن طريقة Google تحافظ على الأداء بينما تخفض احتياجات الذاكرة بشكل حاد، ولهذا يبرز هذا الإنجاز المزعوم.
إذا جرى التحقق من ذلك في بيئات الإنتاج، فسيعزز ذلك درسًا أوسع في تطوير الذكاء الاصطناعي: التقدم لا يأتي فقط من جعل النماذج أكبر. بل يأتي أيضًا من تحسين آليات تقديمها. فالتخزين المؤقت الأفضل، والتكميم الأفضل، والتوجيه الأفضل، وتوزيع الموارد الأفضل يمكن أن تغير اقتصاديات الذكاء الاصطناعي بطرق يلاحظها المستخدمون في النهاية من خلال السرعة أو الإتاحة أو السعر.
Where the benefit could show up first
من المرجح أن تظهر الفائدة الأكثر مباشرة لتقنية مثل TurboQuant أولًا في الذكاء الاصطناعي الحواري عالي الحجم. تحتفظ روبوتات الدردشة بالسياق النشط أثناء توليد الردود، وتزداد تكلفة هذا السياق مع طول الجلسة وعدد المستخدمين. وإذا انخفض استهلاك الذاكرة بشكل كبير، فسيحصل المزودون على مجال أكبر لدعم محادثات ممتدة من دون هذا القدر من العبء العتادي.
قد تكون هناك أيضًا فوائد لاحقة لمنتجات تتجاوز الدردشة عبر الويب. فالأنظمة المدمجة في الهواتف الذكية أو الحواسيب المحمولة أو الأجهزة المحلية الأخرى غالبًا ما تواجه حدودًا أشد للذاكرة مقارنة بخوادم السحابة. ويشير التقرير الأصلي إلى أن تشغيل الذكاء الاصطناعي بكفاءة أعلى قد يكون مهمًا أيضًا لحالات الاستخدام المستقبلية على الجهاز، حتى لو ظهرت المكاسب الأولى في البنية التحتية المركزية.
ومع ذلك، يبقى الادعاء الأساسي محدودًا. TurboQuant لا يلغي الحاجة إلى عتاد واسع النطاق، ولا يحل جميع الاختناقات في نشر الذكاء الاصطناعي. إنه يستهدف تحديدًا واحدًا من أكثر المتطلبات المتكررة تكلفة في الاستدلال: إبقاء حالة عمل كافية متاحة بينما يفكر النموذج في مخرجاته.
A quieter kind of AI breakthrough
ليست أهم التطورات في الذكاء الاصطناعي دائمًا تلك التي يستطيع المستخدمون النهائيون تسميةَها. فكثير منها يحدث تحت السطح، في طبقات البنية المعمارية والتشغيل التي تحدد ما إذا كان النموذج مثيرًا للإعجاب في عرض تجريبي فقط أم مستدامًا في منتج حقيقي.
TurboQuant ينسجم مع هذا النمط. إنه ليس روبوت دردشة جديدًا، ولا عائلة نماذج جديدة. بل هو أداة كفاءة موجهة إلى مشكلة عملية تزداد خطورتها مع ارتفاع الطلب. وفي فترة تتسابق فيها الصناعة لتوسيع الوصول إلى الذكاء الاصطناعي بينما تواجه قيود البنية التحتية والطاقة، قد يكون هذا النوع من التقدم أكثر قيمة من مجرد موجة أخرى من عناوين ضخامة النماذج.
إذا امتدت نتائج Google إلى ما وراء المختبر، فسيكون TurboQuant تذكيرًا بأن مستقبل الذكاء الاصطناعي لا يعتمد فقط على ما تعرفه النماذج، بل أيضًا على مدى كفاءتها في التذكر أثناء العمل.
This article is based on reporting by Live Science. Read the original article.
Originally published on livescience.com



