قد يخفض TurboQuant من Google استخدام ذاكرة الذكاء الاصطناعي حتى ست مرات

TurboQuant من Google يشير إلى عنق زجاجة جديد في الذكاء الاصطناعي: كفاءة الذاكرة

يقول مهندسو Google إن طريقة ضغط جديدة تُسمى TurboQuant يمكنها خفض احتياجات الذاكرة العاملة للذكاء الاصطناعي بما يصل إلى ست مرات من دون التضحية بأداء النموذج، ما قد يخفف أحد أعباء البنية التحتية لدى أنظمة الدردشة الكبيرة

DT Editorial AI

Apr 30, 2026·4 min read·975 words

Why memory is becoming the next AI constraint

مع ازدياد قدرات أنظمة الذكاء الاصطناعي، يتركز الحديث عن التوسع عادة على القدرة الحاسوبية الخام. لكن هناك قيدًا آخر يصبح من الصعب تجاهله أكثر فأكثر: الذاكرة. تحتاج نماذج اللغة الكبيرة إلى ذاكرة عاملة لتتبع المطالبات، والرموز المولدة، والحالات الوسيطة، والسياق أثناء الرد على المستخدمين. هذا التخزين المؤقت، المعروف عادة باسم ذاكرة المفتاح-القيمة أو KV cache، يتوسع مع الاستخدام وقد يصبح مكلفًا بسرعة.

يقول مهندسو Google إنهم طوروا طريقة لتقليص هذا العبء بشكل كبير. ويُوصَف النظام، المسمى TurboQuant، بأنه تقنية ضغط يمكنها تقليل الذاكرة العاملة التي تحتاجها نماذج الذكاء الاصطناعي بما يصل إلى ست مرات مع الحفاظ على المعلومات نفسها والقدرة الحاسوبية نفسها. وإذا ثبت هذا الادعاء على نطاق واسع، فلن يجعل النماذج أذكى بحد ذاته، لكنه قد يجعل تشغيلها أقل كلفة وأسهل على نطاق واسع.

وهذا تمييز مهم. لقد أمضت صناعة الذكاء الاصطناعي سنوات وهي تلاحق نماذج أكبر وعمليات تدريب أوسع. يستهدف TurboQuant الجانب التشغيلي من المعادلة: ما يتطلبه إبقاء تلك النماذج تعمل بكفاءة بعد أن يبدأ المستخدمون في إرسال الطلبات بالمليارات.

What TurboQuant is trying to solve

أثناء المعالجة النشطة، تخزن أنظمة الذكاء الاصطناعي النتائج الحسابية الفورية وبيانات أخرى ذات صلة في الذاكرة حتى تتمكن من مواصلة توليد مخرجات مترابطة. وهذا أمر أساسي للمحادثة، والمطالبات الطويلة، والمهام التي تتضمن عددًا كبيرًا من الرموز. وكلما احتفظ النموذج بسياق أكثر في الوقت نفسه، أصبح أكثر فائدة في الأعمال المعقدة. لكن الاحتفاظ بهذا السياق يتطلب ذاكرة، ويزداد استخدامها مع زيادة طول المطالبات وزيادة عدد المستخدمين.

وبحسب التقرير الأصلي، فإن تخزين مئات الآلاف من الرموز في KV cache قد يتطلب عشرات الجيجابايت من الذاكرة. وتتوسع هذه المتطلبات خطيًا مع عدد المستخدمين. وبالنسبة إلى مقدمي الخدمات الذين يشغلون روبوتات دردشة شائعة أو خدمات ذكاء اصطناعي للمؤسسات، فإن ذلك يخلق مشكلة مباشرة في البنية التحتية. وحتى إذا كان لدى النموذج قدرة حاسوبية كافية، فقد تحد الذاكرة من معدل المعالجة وترفع التكاليف.

يعالج TurboQuant ذلك باستخدام التكميم، وهي طريقة تمثل القيم بعدد أقل من البتات. ببساطة، تضغط البيانات في الذاكرة العاملة إلى شكل أصغر يمكن للنموذج الاستمرار في استخدامه كما لو كان الأصل. والوعد هنا ليس أن النموذج يتعلم أكثر، بل أنه يحمل ما يحتاجه بالفعل بكفاءة أعلى.

Why this matters for deployment

ليست كفاءة الذاكرة جذابة مثل المعايير الجديدة أو إطلاق النماذج، لكنها قد تكون من أكثر مجالات هندسة الذكاء الاصطناعي تأثيرًا. فإذا احتاج نموذج إلى ذاكرة عاملة أقل بكثير لأداء الحسابات نفسها، فقد يتمكن المزودون من خدمة عدد أكبر من المستخدمين باستخدام العتاد نفسه أو تقليل كمية الذاكرة المتخصصة المطلوبة لحمل عمل معين.

وهذا مهم في عدة بيئات في الوقت نفسه. ففي مراكز البيانات الكبيرة، يؤثر ذلك في التكلفة وتخطيط العتاد واستغلال النظام. وفي عمليات النشر المؤسسية، يمكن أن يحدد ما إذا كانت بعض أحمال العمل عملية أم باهظة التكلفة. وفي الأجهزة الأصغر، يمكن لتحسين الكفاءة أن يؤثر في ما إذا كانت النماذج الأكثر قدرة ستعمل أقرب إلى الحافة بدلاً من الاعتماد الكامل على السحابة.

ويصوغ التقرير الأصلي TurboQuant أيضًا بوصفه جزءًا من اتجاه نحو جعل الذكاء الاصطناعي المتقدم أقل اعتمادًا على الزيادات المستمرة في موارد العتاد. وهذا لا يعني أن القدرة الحاسوبية لم تعد مهمة. بل يعني أنه عندما تصل النماذج إلى مستوى معين من القدرة، فإن تحسين هندسة الأنظمة حول الذاكرة والطاقة قد يفتح عمليًا جزءًا كبيرًا من مكاسب الأداء التالية.

The broader technical significance

كانت Google قد استخدمت التكميم من قبل في شبكاتها العصبية، لكن يبدو أن TurboQuant موجه تحديدًا إلى مشكلة الذاكرة العاملة أثناء الاستدلال. وهذا مهم لأن KV cache أصبح قضية مركزية في الذكاء الاصطناعي التوليدي الحديث، خاصة في أنظمة السياق الطويل وخدمات روبوتات الدردشة كثيفة الاستخدام.

إن تقليل ضغط الذاكرة من دون الإضرار بجودة المخرجات أمر صعب. فإذا كان الضغط مفرطًا، يفقد النموذج معلومات مفيدة. وإذا كان الضغط فعالًا، تصبح الخدمة أخف من دون مقايضات واضحة للمستخدم. ويقول التقرير إن طريقة Google تحافظ على الأداء بينما تخفض احتياجات الذاكرة بشكل حاد، ولهذا يبرز هذا الإنجاز المزعوم.

إذا جرى التحقق من ذلك في بيئات الإنتاج، فسيعزز ذلك درسًا أوسع في تطوير الذكاء الاصطناعي: التقدم لا يأتي فقط من جعل النماذج أكبر. بل يأتي أيضًا من تحسين آليات تقديمها. فالتخزين المؤقت الأفضل، والتكميم الأفضل، والتوجيه الأفضل، وتوزيع الموارد الأفضل يمكن أن تغير اقتصاديات الذكاء الاصطناعي بطرق يلاحظها المستخدمون في النهاية من خلال السرعة أو الإتاحة أو السعر.

TurboQuant من Google يشير إلى عنق زجاجة جديد في الذكاء الاصطناعي: كفاءة الذاكرة

Why memory is becoming the next AI constraint

What TurboQuant is trying to solve

Keep Reading

ادعاء لافت بشأن التحكم المغناطيسي في الجينات يواجه تشككًا شديدًا

Why this matters for deployment

The broader technical significance

حجب PTP1B أعاد الذاكرة في الفئران، وفتح مساراً بحثياً جديداً لمرض ألزهايمر

Where the benefit could show up first

A quieter kind of AI breakthrough

تجربة انتقال كمومي تربط مصادر فوتونات منفصلة عبر 270 مترًا

Comments (0)