من الكتمان إلى دائرة الضوء

خرجت شركة جديدة متخصصة في AI للروبوتات من الكتمان بواحدة من أكبر جولات التمويل الأولى في تاريخ صناعة الروبوتات. جمعت Rhoda AI 450 مليون دولار لتسويق نظام يدرب الروبوتات على أداء مهام معقدة من خلال مشاهدة عروض الفيديو بدلاً من البرمجة التقليدية أو التحكم اليدوي عن بعد.

تقول الشركة أن نهجها يقلل بشكل كبير من الوقت والخبرة المطلوبة لتعليم الروبوتات مهارات جديدة، وقد يحل أحد أكبر الاختناقات في نشر الروبوتات: مشكلة البرمجة. اليوم، جعل الروبوت يؤدي مهمة جديدة عادة ما يتطلب أسابيع أو أشهر من العمل الهندسي المتخصص. تؤكد Rhoda AI أن نظامها يمكن أن يحقق نفس النتيجة في ساعات.

التعلم من خلال المراقبة

التكنولوجيا الأساسية وراء Rhoda AI هي foundation model تم تدريبها على كميات ضخمة من بيانات الفيديو التي تظهر البشر يؤدون مهام فيزيائية. يتعلم النموذج ليس فقط كيف تبدو الإجراءات، بل الفيزياء الأساسية والعلاقات المكانية والسلاسل السببية التي تربط النية بإكمال المهمة.

عندما يريد المستخدم تعليم روبوت مزود بـ Rhoda مهارة جديدة، يمكنه ببساطة عرض فيديو للمهمة التي يتم تنفيذها على الروبوت، سواء من تسجيل هاتف ذكي أو فيديو تعليمي أو لقطات مراقبة موجودة. يحلل نظام AI الفيديو، ويستخرج الإجراءات ذات الصلة وتسلسلها، ويقيمها على القدرات الفيزيائية للروبوت، وينتج control policy يسمح للروبوت بتكرار المهمة في بيئته الخاصة.

يمثل هذا تحولاً جذرياً عن النهج الحالية. يعتمد معظم تدريب الروبوتات اليوم إما على البرمجة الصريحة، حيث يقوم المهندسون بترميز كل حركة ونقطة قرار يدويًا، أو reinforcement learning، حيث يتعلم الروبوتات من خلال ملايين محاولات التجربة والخطأ في المحاكاة قبل نقل المهارات إلى العالم الفيزيائي. كلا النهجين يستغرقان وقتاً طويلاً ومكلفان ويتطلبان خبرة متخصصة.

سد الفجوة مع الواقع

أحد أهم الدعاوى التي تقدمها Rhoda AI هو أن نظامها مصمم للعمل بما يتجاوز العروض التوضيحية في المختبرات المراقبة وإلى البيئات الحقيقية. يعالج هذا ما يسميه الروبوتيون بـ sim-to-real gap أو في هذه الحالة video-to-real gap، تحدي نقل المهارات المكتسبة من سياق واحد إلى الظروف الفوضوية وغير المتنبأ بها للنشر الفعلي.

تختلف البيئات في العالم الحقيقي عن سيناريوهات التدريب بطرق لا تحصى. يتغير الإضاءة، توضع الأجسام بشكل مختلف، الأسطح لها خصائص احتكاك مختلفة، وتظهر عقبات غير متوقعة. الأنظمة التي تعمل بشكل مثالي في الإعدادات المراقبة غالباً ما تفشل بشكل كارثي عندما تتغير هذه الظروف حتى قليلاً.

تقول Rhoda AI أنها تعالج هذا من خلال مزيج من الفهم البصري القوي والتحكم التكيفي. تم تدريب foundation model على بيانات فيديو متنوعة بما يكفي بحيث يطور فهماً معمماً للفيزياء والتفاعلات بين الأجسام بدلاً من حفظ السيناريوهات المحددة. عند النشر في بيئة جديدة، يقوم النظام بتكييف control policies باستمرار بناءً على رد الفعل الحسي في الوقت الفعلي.

التمويل والمؤيدون

جولة التمويل بقيمة 450 مليون دولار رائعة لشركة تخرج من الكتمان، مما يعكس الشهية القوية للمستثمرين لشركات AI في الروبوتات. تضع الجولة Rhoda AI بين أفضل شركات روبوتات ناشئة ممولة في التاريخ، جنباً إلى جنب مع شركات مثل Figure AI و 1X Technologies التي جذبت أيضاً مئات الملايين مؤخراً.

يشير حجم الجولة إلى أن المستثمرين يرون نهج Rhoda AI كمحتمل تحويلي لصناعة الروبوتات، التي كانت تكافح طويلاً مع مشكلة قابلية التوسع. القاعدة المثبتة العالمية للروبوتات الصناعية تبلغ حوالي أربعة ملايين وحدة فقط، وهو جزء صغير مما يعتقد العديد من المحللين أن السوق يمكن أن تدعمه إذا كانت الروبوتات أسهل في البرمجة والنشر.

التطبيقات والأسواق المستهدفة

تستهدف Rhoda AI في البداية التصنيع واللوجستيات والتخزين، القطاعات التي تكون فيها المهام الفيزيائية المتكررة مناسبة جيداً للأتمتة الروبوتية لكن حيث تحد تنوع المهام والبيئات من الاعتماد. على سبيل المثال، المستودع الذي يتعامل مع آلاف المنتجات المختلفة سيحتاج تقليدياً إلى برمجة منفصلة لمتطلبات الالتقاط والوضع لكل عنصر. يمكن للتعلم القائم على الفيديو أن يتعامل بسهولة مع هذا التنوع بجزء من جهد الهندسة.

تستكشف الشركة أيضاً التطبيقات في خدمات الغذاء والزراعة والرعاية الصحية، المجالات حيث نقص العمالة حاد والقدرة على تدريب الروبوتات بسرعة على مهام جديدة يمكن أن تكون قيمة بشكل خاص. في الزراعة، على سبيل المثال، المحاصيل المختلفة تتطلب تقنيات حصاد مختلفة، والقدرة على تدريب روبوت بعرض فيديو للحصاد الصحيح يمكن أن تجعل الزراعة الروبوتية أكثر عملياً بكثير.

التحديات والشكوك

رغم التمويل الرائع والدعاوى الطموحة، تبقى التحديات كبيرة. لدى صناعة الروبوتات سجل طويل من الشركات الناشئة التي أظهرت قدرات رائعة في الإعدادات المراقبة لكنها كافحت لتقديم أداء موثوق على نطاق تجاري.

يواجه التعلم القائم على الفيديو قيوداً متأصلة. يلتقط الفيديو معلومات بصرية لكنه يفتقد جوانب عديدة من المهام الفيزيائية التي تكون حرجة لتنفيذ الروبوت: القوة الدقيقة المطلوبة لتثبيت جسم، رد الفعل التكتيلي الذي يرشد التلاعبات الدقيقة، والامتثال المطلوب للتعامل مع الأشياء الهشة. سيحدد كم جيداً نظام Rhoda AI يتعامل مع هذه الجوانب غير البصرية بروباً جدواه في العالم الحقيقي.

ستحتاج الشركة أيضاً إلى إثبات أن نهجها يعمل عبر نطاق واسع من أجهزة الروبوتات، وليس فقط منصات محددة محسنة لبرامجها. تتطلب معظم تطبيقات الروبوتات التجارية التكامل مع المعدات والبنية التحتية الموجودة، والقدرة على النشر عبر تكوينات أجهزة متنوعة ضرورية لتبني واسع.

نموذج جديد للروبوتات

بغض النظر عن كيف تؤدي تكنولوجيا Rhoda AI المحددة على نطاق واسع، يشير ظهور الشركة إلى تحول أوسع في كيفية تفكير صناعة الروبوتات حول مشكلة البرمجة. يمثل مزيج foundation models وفهم الفيديو والتحكم التكيفي نهجاً مختلفاً بشكل جذري عن خط أنابيب الروبوتات التقليدي، والتمويل الضخم الذي جذبه يشير إلى أن الصناعة تعتقد أن اختراقاً في قابلية تعليم الروبوتات قد يكون قادماً.

يعتمد هذا المقال على تقارير The Robot Report. اقرأ المقالة الأصلية.