يتحول الحديث من وحدات معالجة الرسومات إلى الذاكرة

لعدة سنوات، كان الحديث حول تكاليف البنية التحتية للذكاء الاصطناعي يهيمن عليه موضوع واحد: وحدات معالجة الرسومات من Nvidia. كانت ندرة وحدات معالجة الرسومات وتسعيرها وتوزيعها هي محرك العناوين والقرارات الاستثمارية والاستراتيجيات المؤسسية عبر صناعة التكنولوجيا. لكن تحولًا أهدأ جاريًا في كيفية تفكير الصناعة في اقتصاديات البنية التحتية للذكاء الاصطناعي. بشكل متزايد، الذاكرة وليس قوة المعالجة، تظهر كقيد ملزم على أداء وتكلفة أنظمة الذكاء الاصطناعي.

الديناميكية تجعل الحس البديهي عندما تفحص كيف تعمل نماذج الذكاء الاصطناعي الحديثة فعليًا. نموذج اللغة الكبيرة لا يقتصر على حساب الإجابات ببساطة. يجب أن يحتفظ بكميات ضخمة من البيانات في الذاكرة النشطة، يمكن الوصول إليها بسرعات عالية جدًا، لمعالجة كل طلب. أوزان النموذج، المعاملات الرقمية التي تشفر معرفته وقدراته، يجب تحميلها في الذاكرة قبل أن يبدأ الاستدلال. بالنسبة للنماذج الحدودية التي تحتوي على مئات المليارات أو حتى تريليونات المعاملات، تتجاوز الذاكرة المطلوبة لحفظ هذه الأوزان بكثير ما تم تصميمه للأنظمة الحاسوبية التقليدية.

ذاكرة النطاق الترددي العالي: المكون الحرج

نوع الذاكرة المحدد الذي أصبح محوريًا للبنية التحتية للذكاء الاصطناعي هو ذاكرة النطاق الترددي العالي، المعروفة باسم HBM. بخلاف ذاكرة الوصول العشوائي القياسية الموجودة في أجهزة الكمبيوتر الشخصية، تقوم ذاكرة HBM بتكديس عدة طبقات من رقاقات الذاكرة عموديًا وتوصلها بناقل بيانات واسع جدًا، مما يوفر معدلات نقل البيانات التي تكون بأوامر من حيث الحجم أسرع من الذاكرة التقليدية. هذه السرعة ضرورية لأن معجلات الذكاء الاصطناعي مثل وحدات GPU H100 و H200 من Nvidia يمكن أن تعالج البيانات بسرعة أكبر بكثير مما يمكن للذاكرة القياسية تسليمها. بدون HBM، ستقضي هذه المعالجات معظم وقتها تنتظر البيانات، مما يجعل قدراتها الحسابية عديمة الفائدة إلى حد كبير.

يتم ربط HBM فعليًا بمعجل الذكاء الاصطناعي باستخدام تقنيات التغليف المتقدمة، مما يوجد وحدة متكاملة حيث تتم ربط الذاكرة والمعالجة بإحكام. يوفر هذا التكامل النطاق الترددي المطلوب لأعباء عمل الذكاء الاصطناعي ولكنه ينشئ أيضًا اعتمادية سلسلة التوريد: كل معجل ذكاء اصطناعي مُرسل يتطلب تخصيص مقابل من HBM، وقدرة الإنتاج لـ HBM مركزة بين ثلاث الشركات المصنعة فقط عالميًا.

احتكار من ثلاث شركات

يتم التحكم في العرض العالمي لـ HBM من قبل ثلاث شركات: SK hynix و Samsung و Micron. SK hynix، شركة التصنيع السيميائي الكورية الجنوبية، تهيمن حاليًا على السوق وهي المورد الأساسي لـ HBM من Nvidia. Samsung، على الرغم من كونها أكبر شركة رقائق الذاكرة من حيث الإيرادات الإجمالية في العالم، كافحت مع مشاكل العائد في إنتاج HBM وفقدت حصة سوقية كبيرة لـ SK hynix في هذا القطاع الحرج. Micron، شركة التصنيع الأمريكية للذاكرة، كسبت أرضية مع منتجات HBM تنافسية لكنها تعمل بنطاق أصغر من منافسيها الكوريين.

هذا الهيكل العرضي المركز يخلق قوة تسعير كبيرة لمصنعي HBM والضعف لشركات البنية التحتية للذكاء الاصطناعي. عندما يتجاوز الطلب العرض، كما حدث باستمرار على مدار السنتين الماضيتين، تزداد الأسعار ويصبح التخصيص تفاوضًا استراتيجيًا بدلاً من عملية استحصال مباشرة. يجب على الشركات التي تبني مراكز بيانات الذكاء الاصطناعي أن تضمن التزامات HBM مقدمًا، غالبًا ما توقع اتفاقيات إمدادات طويلة الأجل بأسعار مميزة لضمان حصولها على الذاكرة المطلوبة لعمليات النشر المخطط لها.

الاقتصاديات مذهلة. يمكن أن تمثل HBM من 30 إلى 40 في المائة من إجمالي تكلفة وحدة معجل الذكاء الاصطناعي، وهي نسبة تزداد حيث أن أسعار HBM تزداد أسرع من السوق الموسعة للرقائق الدقيقة. بالنسبة لشركة تنشر آلاف معجلات الذكاء الاصطناعي في مركز بيانات جديد، يمكن لفاتورة الذاكرة وحدها أن تصل إلى مئات الملايين من الدولارات.

لماذا يستمر الطلب في النمو

تتقارب عدة اتجاهات لتكثيف الطلب على HBM والذاكرة من فئة الذكاء الاصطناعي بشكل أوسع. الأكثر وضوحًا هو الاستمرار في نمو أحجام النموذج. كل جيل جديد من نماذج الذكاء الاصطناعي الحدودية يميل إلى أن يكون أكبر بكثير من سابقه، مما يتطلب ذاكرة أكثر نسبيًا لتخزين معاملاته. لكن حجم النموذج ليس سوى جزء من المعادلة.

يُعتبر طلب الاستدلال ربما محركًا أكثر أهمية لاستهلاك الذاكرة من التدريب. بينما يعتبر تدريب نموذج عملية لمرة واحدة (أو دورية) تتطلب موارد حسابية ضخمة لفترة محددة، الاستدلال، عملية تشغيل النموذج فعليًا للرد على طلبات المستخدم، مستمر ويتوسع مع اعتماد المستخدم. كل تفاعل دردشة، كل إكمال رمز، كل طلب توليد صورة يتطلب تحميل أوزان النموذج في الذاكرة والاحتفاظ بها هناك طوال مدة المعالجة.

مع انتشار تطبيقات الذكاء الاصطناعي ونمو اعتماد المستخدم، يزداد الطلب الكلي على الاستدلال عبر الصناعة بشكل كبير. تقوم الشركات بنشر نماذج في خدمة العملاء وتطوير البرامج وإنشاء المحتوى وتحليل البيانات وبمئات التطبيقات الأخرى، كل منها ينتج طلبًا مستمرًا على الذاكرة. إجمالي الذاكرة المطلوبة لخدمة جميع هذه الأحمال العملية في وقت واحد يمثل الآن جزءًا كبيرًا من القدرة الإنتاجية لـ HBM العالمية.

توسيع نافذة السياق هو عامل آخر. النماذج مثل Claude من Anthropic و Gemini من Google تقدم الآن نوافذ سياق من مليون رمز أو أكثر، مما يعني أنها يمكن أن تعالج كميات ضخمة من نص الإدخال في طلب واحد. التعامل مع هذه السياقات الكبيرة يتطلب تخزين حالات الاهتمام والحسابات الوسيطة في الذاكرة طوال خط أنابيب المعالجة، مما يضيف إلى استهلاك الذاكرة لكل طلب.

التأثيرات الموجية على تخطيط البنية التحتية

تبدأ قيود الذاكرة في التأثير على قرارات البنية التحتية للذكاء الاصطناعي بطرق كان يبدو غير مرجح حتى قبل سنتين. يقوم معماريو مراكز البيانات بتصميم الأنظمة مع توفير الذاكرة كقيد أساسي وليس كحاشية. تقوم موفرات الخدمات السحابية بإنشاء أنواع نسخ محسنة للذاكرة خصيصًا لأعباء عمل الاستدلال للذكاء الاصطناعي. وتستكشف شركات الأجهزة تقنيات ذاكرة جديدة يمكن أن توفر سعة أعلى أو نطاق ترددي بتكاليف أقل.

تؤثر مشكلة الذاكرة أيضًا على قرارات تطوير النموذج. بعض مختبرات الذكاء الاصطناعي تستثمر بكثافة في تقنيات لتقليل موطن الذاكرة من نماذجهم دون التضحية بالقدرة، بما في ذلك الكميزة، التي تقلل الدقة الرقمية لأوزان النموذج، والمعمارية من خبراء الخليط، التي تنشط فقط مجموعة فرعية من معاملات النموذج لكل طلب. هذه التقنيات ليست مجرد تمارين أكاديمية. إنها ردود مباشرة على القيد العملي الذي تفرضه الذاكرة على اقتصاديات النشر.

بالنسبة لنظام الذكاء الاصطناعي الأوسع، يمثل التحول في الاهتمام من وحدات معالجة الرسومات إلى الذاكرة نضجًا في الفهم حول ما يحدد فعليًا تكلفة وجدوى نشر الذكاء الاصطناعي على نطاق واسع. سرد نقص وحدات معالجة الرسومات، بينما لم يتم حلها تمامًا، تم معالجة جزء منها بزيادة القدرة الإنتاجية والدخول المنافسين مثل AMD والسيليكون المخصص من موفري الخدمات السحابية الرئيسيين. الذاكرة، في المقابل، تواجه أوقات انتظار أطول لتوسيع القدرة وعدد أقل من البدائل التنافسية، مما يجعلها عنق الزجاجة أكثر اتساقًا وتحديًا هيكليًا.

ماذا يأتي بعد ذلك

تستجيب شركات الذاكرة للطلب بخطط طموحة لتوسيع القدرات. SK hynix تبني منشآت إنتاج جديدة وتسرع إنتاج منتجات HBM3E الأحدث. Samsung تعمل على حل مشاكل العائد واستعادة التنافس. Micron تستثمر في إنتاج HBM موسع في الولايات المتحدة واليابان. لكن سعة التصنيع السيميائي تستغرق سنوات لبنائها، والفجوة بين العرض الحالي والطلب المتوقع تقترح أن الذاكرة ستظل عاملاً مقيدًا في البنية التحتية للذكاء الاصطناعي في المستقبل القريب.

تقنيات ناشئة مثل Compute Express Link، التي تسمح للأنظمة بمشاركة مجموعات الذاكرة عبر عدة معالجات، والمعماريات الجديدة للذاكرة التي يتم تطويرها في مختبرات البحث يمكن في النهاية أن تخفف من القيد. لكن هذه الحلول لا تزال سنوات بعيدة عن النشر التجاري على نطاق واسع. في الوقت الحالي، يتعلم صناعة الذكاء الاصطناعي أن تحدي البنية التحتية لا يتعلق بأي مكون واحد ولكن بالتفاعل المعقد بين المعالجات والذاكرة والشبكات والطاقة والتبريد الذي يحدد معًا ما هو ممكن وبأي تكلفة.

هذه المقالة مبنية على التقارير من TechCrunch. اقرأ المقالة الأصلية.