مشكلة البيانات في الروبوتيات

تعليم الروبوت للتعامل مع الأشياء في العالم المادي تاريخياً تطلب كميات هائلة من بيانات المحاكاة التي جمعها البشر. نظام RT-1 من Google DeepMind تطلب 130,000 حلقة من البيانات تم جمعها على مدى 17 شهراً من قبل مشغلين بشريين. مجموعة DROID تتضمن 76,000 مسار تم التحكم فيه عن بعد جُمعت عبر 13 مؤسسة بحثية — تمثل حوالي 350 ساعة من جهد الإنسان. هذه الأرقام تعكس ليس فقط حجم التحدي بل التركيز الاقتصادي الذي ينتجه: فقط عدد صغير من المختبرات الممولة جيداً يمكنها تحمل تكلفة جمع البيانات اللازمة لتدريب أنظمة معالجة تنافسية.

معهد Allen للذكاء الاصطناعي — Ai2 — يقترح نموذجاً مختلفاً مع MolmoBot، وهو نظام معالجة روبوتي تم تدريبه بشكل أساسي على بيانات من المحاكاة الافتراضية وليس من المحاكاة البدنية. يوضح البحث أن هذا النموذج المدرب على المحاكاة يمكنه نقل قدراته إلى أنظمة الروبوت المادية الحقيقية، وهي نتيجة يمكن أن تُحسّن بشكل كبير من الوصول الديموقراطي إلى ذكاء اصطناعي معالجة روبوتي قادر.

لماذا فشلت المحاكاة تاريخياً في النقل

الفجوة بين أداء المحاكاة وأداء العالم الحقيقي — 'الفجوة من المحاكاة إلى الحقيقة' — كانت عقبة مستمرة. الروبوتات المادية تواجه ثراءً من المدخلات الحسية، والتنوع البيئي، وديناميكيات التلامس التي تكافح بيئات المحاكاة لتكرارها بأمانة. روبوت مدرب بالكامل في المحاكاة غالباً ما يفشل في التعامل مع الفوضى في العالم الحقيقي التي تجردت منها بيئة التدريب الخاصة به.

محاولات سابقة لسد هذه الفجوة اعتمدت على التنويع المجال — تغيير متعمد لمعاملات المحاكاة مثل الإضاءة وملمس الأجسام وخصائص الفيزياء لفرض الروبوتات على تطوير تمثيلات تعميم عبر الشروط. كان لهذا النهج نجاح جزئي في الحركة ولكنه كان أقل فعالية لمهام المعالجة الدقيقة التي تتطلب التحكم الحركي الدقيق وإدارة قوة التلامس الدقيقة.

نهج MolmoBot

MolmoBot يعتمد على نموذج Molmo رؤية-لغة من Ai2، والذي يوفر النظام بفهم غني للمشاهد البصرية والتعليمات اللغوية. الابتكار الرئيسي هو كيفية إنشاء وتنظيم بيانات المحاكاة لتدريب المعالجة. بدلاً من استخدام بيئة محاكاة واحدة، طورت الفريق خط أنابيب لإنشاء سيناريوهات معالجة متنوعة بدقة فيزيائية كافية لتدريب المهارات القابلة للتعميم.

يجمع النظام بين دقة محاكاة محسّنة في ديناميكيات التلامس مع نهج تعلم التمثيل الذي يبني صراحة الثوابت على الاختلافات البصرية بين البيئات المحاكاة والحقيقية. يتعلم الروبوت تحديد السمات البصرية ذات الصلة بالمهام — موضع المشبك، الجسم الذي يتم معالجته، موقع الهدف — التي تبدو متشابهة عبر المحاكاة والواقع، بدلاً من تعلم التمثيلات التي تشفر الأشياء البصرية المحددة للمحاكاة.

حجة الديموقراطية

الحجة الاقتصادية للتدريب على أساس المحاكاة مباشرة. إنشاء بيانات المحاكاة يتطلب البنية التحتية الحسابية ولكن ليس الروبوتات المادية، ولا المشغلين البشريين المدربين، ولا التنسيق المؤسسي اللازم لتجميع مجموعات بيانات مظاهرة كبيرة. فريق بحثي في جامعة صغيرة بإمكانه الوصول إلى مجموعة حسابية يمكنه إنشاء ملايين حلقات معالجة محاكاة في الوقت الذي تأخذه مختبراً ممول جيداً لجمع عشرات الآلاف من المظاهرات المادية.

إذا كانت النماذج المدربة على المحاكاة يمكنها مطابقة أو الاقتراب من أداء الأنظمة المدربة مادياً — وهو ما تشير نتائج MolmoBot إلى أنه يمكن تحقيقه لفئة ذات معنى من مهام المعالجة — فإن قدرات ذكاء اصطناعي معالجة روبوتي تصبح في متناول مجتمع بحثي أوسع بكثير.

إصدار مفتوح

متسقة مع فلسفة البحث في Ai2، يتم إصدار نظام MolmoBot وخط أنابيب تدريب المحاكاة الخاص به بشكل مفتوح. مجموعة مسارات معالجة المحاكاة، أوزان النموذج المدرب، وأدوات بيئة المحاكاة جميعها يتم توفيرها للمجتمع البحثي — نهج يتناقض بشكل مباشر مع استراتيجيات البيانات والنماذج الملكية لبرامج ذكاء اصطناعي الروبوتيات التجارية التي قادت هذا المجال. قال الرئيس التنفيذي Ali Farhadi الهدف بوضوح: بناء ذكاء اصطناعي يعزز العلم من خلال أدوات يمكن للمجتمع البحثي العالمي بناء عليها معاً.

هذه المقالة مبنية على تقرير من AI News. اقرأ المقالة الأصلية.

Originally published on artificialintelligence-news.com