OpenAI تطلق بروتوكول الشبكة MRC لعناقيد تدريب الذكاء الاصطناعي الكبيرة

طبقة شبكية جديدة لعناقيد ذكاء اصطناعي أكبر

قدمت OpenAI بروتوكول Multipath Reliable Connection، أو MRC، وهو بروتوكول شبكي مصمم لأنظمة تدريب الذكاء الاصطناعي واسعة النطاق حيث يمكن أن تؤدي التأخيرات بين وحدات GPU إلى إبطاء المهمة بأكملها. وقالت الشركة إنها طورت البروتوكول بالتعاون مع AMD وBroadcom وIntel وMicrosoft وNVIDIA، ثم أصدرت المواصفات عبر Open Compute Project لكي يتمكن مشغلو آخرون من اعتماده.

تستهدف هذه الخطوة أحد الاختناقات الأقل ظهورًا في تطوير النماذج المتقدمة. تعتمد عمليات التدريب على كميات هائلة من البيانات التي تنتقل بين المسرّعات، ويمكن لنقل واحد متأخر أن يترك العتاد المكلف في حالة انتظار خاملة. وتقول OpenAI إنه مع نمو العناقيد تصبح حالات الازدحام وأعطال الوصلات ومشكلات التوجيه متكررة بما يكفي لجعل تصميم الشبكة نفسه عاملًا أساسيًا في تحديد سرعة التدريب وموثوقيته.

ما الذي صُمم MRC لمعالجته

في وصفها للنظام، قالت OpenAI إن البروتوكول يقوم على ثلاث أفكار: شبكات عالية السرعة متعددة المسارات لتوفير التكرار، ونثر الحزم التكيفي لتقليل الازدحام في قلب الشبكة، والتوجيه الثابت من المصدر للتعامل مع الأعطال. وقدمت الشركة هذه الخيارات باعتبارها وسيلة لتقليل التعقيد مع تحسين المرونة.

تكمن المشكلة الأساسية في الحجم. فقد تتطلب خطوة تدريب حديثة ملايين عمليات نقل البيانات عبر نسيج حاسوب فائق. وإذا ازدحم مسار شبكي أو تعطل جهاز، فقد يمتد هذا الاضطراب إلى الخارج ويعطل العمل المتزامن عبر العديد من وحدات GPU. وقالت OpenAI إن MRC يهدف إلى منع انتشار هذه المشكلات عبر توزيع حركة المرور بشكل أكثر فعالية، والسماح بتجاوز الأعطال من دون الاعتماد على سلوك توجيه أكثر هشاشة.

ثلاثة اختيارات تصميمية أساسية

يهدف تعدد المسارات في الشبكة إلى توفير التكرار مع استخدام مكونات أقل وطاقة أقل من بعض البدائل.
ينشر نثر الحزم التكيفي حركة المرور عبر المسارات لتقليل النقاط الساخنة في قلب الشبكة.
يُستخدم التوجيه الثابت من المصدر في النشر لتجاوز الأعطال وتجنب فئات من أعطال التوجيه بالكامل.

Create, edit and star in videos with two Google Vids updates

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

توسّع Google إنشاء الفيديو بالذكاء الاصطناعي داخل Workspace عبر توليد المقاطع وتحريرها بالاعتماد على الأوامر النصية، إلى جانب صور رمزية مخصصة تُنشأ من صورة سيلفي وتسجيل صوتي.

Read article

لماذا يهم ذلك خارج شركة واحدة

ربطت OpenAI الإطلاق باستراتيجية الحوسبة الأوسع لديها وبمتطلبات بنية تحتية بمستوى Stargate. وقالت الشركة إن المعايير المشتركة في طبقات البنية التحتية الأساسية يمكن أن تساعد أنظمة الذكاء الاصطناعي على التوسع بكفاءة أكبر عبر منظومة أوسع من الشركاء. كما أن نشر المواصفات عبر OCP يشير إلى أن تصميم شبكات عناقيد الذكاء الاصطناعي بدأ يُعامل باعتباره مشكلة صناعية مشتركة لا مجرد تفصيل تنفيذي خاص.

ويكتسب ذلك أهمية لأن اقتصاديات تدريب النماذج لا تحددها الشرائح والطاقة فقط، بل أيضًا مدى قدرة المشغلين على إبقاء العناقيد مشغولة بفعالية. ويمكن لبروتوكول يقلل التذبذب ويجعل الالتفاف حول الأعطال أسهل أن يحسن الاستفادة من النشر الواسع، وهو ما يؤثر بدوره في سرعة تدريب النماذج الجديدة وكمية البنية التحتية التي يجب بناؤها للوصول إلى هدف معين.

وتؤكد قائمة الشركاء أيضًا مدى اتساع المشكلة. ومع مشاركة موردي أشباه الموصلات ومشغلي البنية التحتية السحابية ومصنعي الأنظمة جميعًا، يشير هذا الإطلاق إلى أن شبكات الذكاء الاصطناعي تتحول إلى طبقة تنافسية مهمة بحد ذاتها. كما أن اختيار OpenAI لمواصفة مفتوحة بدلًا من نهج احتكاري بحت يوحي بأنها تراهن على أن قابلية التشغيل البيني وتبني النظام البيئي أصبحتا الآن أكثر قيمة من إبقاء هذا الجزء من المنظومة مغلقًا.

الإشارة الأوسع للبنية التحتية

تبرز أهمية الإعلان ليس بسبب ميزة واحدة في البروتوكول، بل لأنه يوضح أين تتراكم الضغوط على بنية الذكاء الاصطناعي. لسنوات، ركز النقاش العام حول توسيع النماذج على وحدات GPU. ويبرز MRC القيد التالي: عندما تصبح أعداد المسرّعات ضخمة، يمكن للشبكة التي تربطها أن تحدد ما إذا كانت القدرة الحاسوبية النظرية ستتحول فعلًا إلى عمل مفيد.

تقول OpenAI عمليًا إن الطريق إلى أنظمة تدريب أكبر وأكثر موثوقية يمر عبر أقمشة شبكية أبسط وأكثر تحمّلًا للأعطال. وإذا أدى MRC كما هو موصوف في عمليات النشر الفعلية، فقد يساعد في تشكيل التوقعات حول كيفية بناء عناقيد الذكاء الاصطناعي العملاقة مستقبلًا. وعلى الأقل، فهو يمثل خطوة أخرى في تصنيع بنية الذكاء الاصطناعي، حيث تأتي التحسينات بشكل متزايد من هندسة الأنظمة بقدر ما تأتي من بنية النماذج.

هذه المقالة مبنية على تقرير من OpenAI. اقرأ المقال الأصلي.

Originally published on openai.com

OpenAI وشركاؤها يطلقون MRC لتعزيز شبكات تدريب الذكاء الاصطناعي