طبقة شبكية جديدة لعناقيد ذكاء اصطناعي أكبر

قدمت OpenAI بروتوكول Multipath Reliable Connection، أو MRC، وهو بروتوكول شبكي مصمم لأنظمة تدريب الذكاء الاصطناعي واسعة النطاق حيث يمكن أن تؤدي التأخيرات بين وحدات GPU إلى إبطاء المهمة بأكملها. وقالت الشركة إنها طورت البروتوكول بالتعاون مع AMD وBroadcom وIntel وMicrosoft وNVIDIA، ثم أصدرت المواصفات عبر Open Compute Project لكي يتمكن مشغلو آخرون من اعتماده.

تستهدف هذه الخطوة أحد الاختناقات الأقل ظهورًا في تطوير النماذج المتقدمة. تعتمد عمليات التدريب على كميات هائلة من البيانات التي تنتقل بين المسرّعات، ويمكن لنقل واحد متأخر أن يترك العتاد المكلف في حالة انتظار خاملة. وتقول OpenAI إنه مع نمو العناقيد تصبح حالات الازدحام وأعطال الوصلات ومشكلات التوجيه متكررة بما يكفي لجعل تصميم الشبكة نفسه عاملًا أساسيًا في تحديد سرعة التدريب وموثوقيته.

ما الذي صُمم MRC لمعالجته

في وصفها للنظام، قالت OpenAI إن البروتوكول يقوم على ثلاث أفكار: شبكات عالية السرعة متعددة المسارات لتوفير التكرار، ونثر الحزم التكيفي لتقليل الازدحام في قلب الشبكة، والتوجيه الثابت من المصدر للتعامل مع الأعطال. وقدمت الشركة هذه الخيارات باعتبارها وسيلة لتقليل التعقيد مع تحسين المرونة.

تكمن المشكلة الأساسية في الحجم. فقد تتطلب خطوة تدريب حديثة ملايين عمليات نقل البيانات عبر نسيج حاسوب فائق. وإذا ازدحم مسار شبكي أو تعطل جهاز، فقد يمتد هذا الاضطراب إلى الخارج ويعطل العمل المتزامن عبر العديد من وحدات GPU. وقالت OpenAI إن MRC يهدف إلى منع انتشار هذه المشكلات عبر توزيع حركة المرور بشكل أكثر فعالية، والسماح بتجاوز الأعطال من دون الاعتماد على سلوك توجيه أكثر هشاشة.

ثلاثة اختيارات تصميمية أساسية

  • يهدف تعدد المسارات في الشبكة إلى توفير التكرار مع استخدام مكونات أقل وطاقة أقل من بعض البدائل.
  • ينشر نثر الحزم التكيفي حركة المرور عبر المسارات لتقليل النقاط الساخنة في قلب الشبكة.
  • يُستخدم التوجيه الثابت من المصدر في النشر لتجاوز الأعطال وتجنب فئات من أعطال التوجيه بالكامل.