من نماذج العالم إلى التحكم بالروبوت

أعلنت NVIDIA عن Cosmos Policy، إضافة جديدة لعائلة نماذج foundation العالمية المتنامية الخاصة بها والتي تسد الفجوة بين فهم البيئة والتحكم الفيزيائي بالروبوت. تم بناء النموذج على أساس Cosmos Predict-2، نموذج foundation العالمي الحالي من NVIDIA الذي يولد تنبؤات حول كيفية تغير البيئات الفيزيائية بمرور الوقت. يأخذ Cosmos Policy تلك التنبؤات ويترجمها إلى إشارات تحكم قابلة للتنفيذ يمكن للروبوتات استخدامها لأداء مهام معالجة معقدة.

يمثل الإعلان تطوراً كبيراً في نهج NVIDIA تجاه الروبوتات الذكية. بدلاً من تدريب الروبوتات على أداء مهام محددة من خلال عروض توضيحية موسعة أو هندسة المكافآت، يستفيد Cosmos Policy من الفهم المعمم للديناميكا الفيزيائية لتمكين سلوك روبوتات أكثر مرونة وتكيفاً. من حيث المبدأ، يجب أن يكون الروبوت المزود بـ Cosmos Policy قادراً على الاقتراب من مهام المعالجة الجديدة برؤية أساسية حول كيفية تفاعل الأجسام مع بعضها البعض وبجسم الروبوت نفسه.

كيف يعمل Cosmos Policy

في جوهره، Cosmos Policy هو طبقة post-training مطبقة على نموذج foundation العالمي Cosmos Predict-2. تم تدريب Cosmos Predict-2 على كميات ضخمة من بيانات الفيديو التي تظهر التفاعلات الفيزيائية في العالم الحقيقي، ويتعلم التنبؤ بما سيحدث بعد ذلك في مشهد معين. بالنظر إلى صورة طاولة بها أجسام عليها، على سبيل المثال، يمكن للنموذج التنبؤ بكيفية تحرك تلك الأجسام إذا تم دفعها أو رفعها أو إسقاطها.

يبني Cosmos Policy على هذه القدرة التنبؤية بإضافة سياسة تحكم تحدد الإجراءات التي يجب أن يتخذها الروبوت لتحقيق النتيجة المرغوبة. يعمل النظام من خلال العملية التالية:

  • فهم المشهد: يستخدم الروبوت الكاميرات والمستشعرات للتقاط الحالة الحالية لبيئته، ويقوم Cosmos Predict-2 ببناء تمثيل داخلي للديناميكا الفيزيائية للمشهد.
  • تحديد الهدف: يحدد المشغل أو نظام التخطيط على مستوى أعلى ما يجب أن ينجزه الروبوت، مثل التقاط جسم أو وضعه في موقع محدد أو تجميع المكونات.
  • توليد الإجراء: يستخدم Cosmos Policy فهم نموذج العالم للفيزياء لتوليد سلسلة من أوامر المحرك التي ستحرك أذرع وماسكات الروبوت لتحقيق الهدف.
  • التكيف في الوقت الفعلي: مع قيام الروبوت بتنفيذ المهمة، يقوم النظام بتحديث تنبؤاته باستمرار بناءً على بيانات المستشعرات الجديدة، مما يسمح له بتعديل إجراءاته إذا تغيرت البيئة بشكل غير متوقع.

هذا النهج مختلف بشكل أساسي عن البرمجة التقليدية للروبوتات، حيث يحدد المهندسون يدوياً كل حركة، أو من التعلم التعزيزي النقي، حيث يجب أن يتعلم الروبوت تماماً من خلال التجربة والخطأ. من خلال البدء برؤية مسبقة التدريب حول الديناميكا الفيزيائية، يعطي Cosmos Policy الروبوتات بداية كبيرة في المهام الجديدة.

لماذا نماذج Foundation العالمية مهمة للروبوتات

كسبت مفاهيم نماذج foundation العالمية جاذبية في مجتمعات الروبوتات والبحث في AI لعدة سنوات، لكن عائلة Cosmos من NVIDIA تمثل واحدة من أكثر التطبيقات الطموحة تجارياً للفكرة. الرؤية الأساسية هي أن الروبوتات التي تعمل في العالم الفيزيائي تحتاج إلى أكثر من التعرف على الأنماط أو فهم اللغة. هم بحاجة إلى فهم حدسي للفيزياء، نوع الفهم الذي يسمح للإنسان بالتنبؤ بأن الزجاج الموضوع على حافة الطاولة سيسقط، أو أن الجسم الثقيل يتطلب قوة أكثر لرفعه من الجسم الخفيف.

كافحت النهج التقليدية لتعلم الروبوتات مع هذا. يمكن لـ Reinforcement learning إنتاج نتائج مثيرة للإعجاب لمهام محددة، لكن المعرفة غالباً لا تنتقل جيداً إلى حالات جديدة. يتطلب Imitation learning بيانات توضيحية موسعة لكل مهمة جديدة. والبرمجة اليدوية مرنة جداً للبيئات التي تتغير بشكل متكرر.

تقدم نماذج foundation العالمية مساراً محتملاً من خلال هذه القيود. من خلال تدريب نموذج واحد على كميات ضخمة من بيانات الفيديو في العالم الحقيقي، يقوم النظام الناتج بتطوير فهم عام للديناميكا الفيزيائية يمكن تطبيقه عبر العديد من المهام والبيئات المختلفة. Cosmos Policy هي محاولة NVIDIA لتحويل هذا الفهم العام إلى تحكم روبوتات عملي.

التكامل مع نظام Robotics البيئي من NVIDIA

Cosmos Policy موجود في العزلة. تم تصميمه للتكامل مع مكدس البرامج الروبوتية الأوسع من NVIDIA، بما في ذلك Isaac Sim للمحاكاة، و Isaac ROS لتكامل نظام تشغيل الروبوت، ومنصة Jetson للحوسبة الطرفية. هذا النهج البيئي هو جزء رئيسي من استراتيجية NVIDIA، لأن سياسة التحكم مفيدة فقط إذا كان يمكنها العمل بكفاءة على الأجهزة التي تحملها الروبوتات فعلاً والتواصل مع أنظمة البرامج التي تدير أساطيل الروبوتات.

تقول NVIDIA إنه تم التحقق من صحة Cosmos Policy في مهام المعالجة المحاكاة والعالمية، بما في ذلك عمليات pick-and-place، وتسليم الكائنات بين أذرع الروبوت، ومهام التجميع التي تتطلب محاذاة دقيقة للمكونات. تقوم الشركة بإتاحة النموذج للمطورين من خلال منصة NVIDIA AI، بهدف تمكين التجريب السريع والنشر عبر مجموعة واسعة من تطبيقات الروبوتات.

الآثار التنافسية

يضع إدخال Cosmos Policy NVIDIA بشكل أكثر عدوانية في سوق برامج التحكم بالروبوتات، الذي كان يهيمن عليه تقليدياً شركات الروبوتات المتخصصة والمؤسسات البحثية. بتقديم نموذج foundation مدرب مسبقاً مع إمكانيات تحكم مدمجة، تقلل NVIDIA حاجز الدخول للشركات التي تريد نشر روبوتات معالجة متطورة ولكن تفتقر إلى الخبرة الداخلية في AI لبناء هذه القدرات من البداية.

يشمل المنافسون في هذه المساحة Google DeepMind، الذي لديه خط خاص به من نماذج foundation الروبوتات، والعديد من الشركات الناشئة التي تعمل على تعلم الروبوتات القابلة للتعميم. تكمن ميزة NVIDIA في نظامها البيئي المتكامل للأجهزة والبرامج وقاعدتها المثبتة الضخمة لبنية GPU الحوسبة، والتي توفر الأساس الحسابي اللازم لتدريب وتشغيل نماذج من هذا التعقيد.

بالنسبة لصناعة الروبوتات ككل، يشير وصول Cosmos Policy إلى أن عصر معالجة الروبوتات ذات الأغراض العامة، حيث يمكن لروبوت واحد التعامل مع مجموعة متنوعة من المهام الفيزيائية دون برمجة خاصة بالمهمة، يتحرك من طموح البحث نحو الواقع التجاري. سيعتمد السرعة التي يحدث بها هذا الانتقال على موثوقية وأداء أنظمة مثل Cosmos Policy في عمليات النشر في العالم الحقيقي، وهي مسألة ستجيب عليها الصناعة خلال الأشهر والسنوات القادمة.

تستند هذه المقالة إلى تقارير من The Robot Report. اقرأ المقالة الأصلية.