Lyra 2.0 من Nvidia تبني عوالم ثلاثية الأبعاد لتدريب الروبوتات من صورة واحدة

من صورة واحدة إلى عالم ثلاثي الأبعاد قابل للتنقل

كشف باحثو Nvidia عن Lyra 2.0، وهو نظام مصمم لتوليد بيئات ثلاثية الأبعاد كبيرة ومتماسكة من صورة فوتوغرافية واحدة. وتقول الشركة إن المشاهد الناتجة يمكن استكشافها في الوقت الفعلي وتصديرها إلى منصات محاكاة مثل Isaac Sim، حيث يمكن استخدامها لتدريب الروبوتات.

الطرح طموح، لكنه يتوافق تمامًا مع مشكلة محورية في الذكاء الاصطناعي الحديث للروبوتات: تدريب الوكلاء في المحاكاة أسهل وأرخص وأكثر أمانًا بكثير من تدريبهم حصريًا في العالم المادي، لكن المحاكاة المفيدة لا تزال تعتمد على بناء بيئات كبيرة ومستقرة وواقعية بما يكفي لتكون ذات قيمة. إذا كانت صورة واحدة قادرة على توليد مشهد متماسك يمتد لعشرات الأمتار، فقد يؤدي ذلك إلى خفض تكلفة إنشاء محتوى المحاكاة بشكل ملموس.

وبحسب التقرير، يمكن لـ Lyra 2.0 توليد مشاهد تمتد لنحو 90 مترًا. لكن الأهم من الحجم الخام هو الادعاء بأن النموذج يعالج نقطتين ضعيفتين شائعتين في الطرق السابقة: نسيان ما جرى توليده بالفعل، وتراكم الأخطاء البصرية الصغيرة التي تتحول مع الوقت إلى تشوهات أكبر.

لماذا يُعد توليد المشاهد ثلاثية الأبعاد لمسافات طويلة أمرًا صعبًا

غالبًا ما تتدهور أنظمة الذكاء الاصطناعي الحالية لتوليد المشاهد ثلاثية الأبعاد كلما ابتعدت الكاميرا الافتراضية عن نقطة البداية. تنحرف الألوان، وتتغير الهندسة، ويفقد المشهد تماسكه. وإذا عادت الكاميرا لاحقًا إلى منطقة سبق أن شاهدتها، فقد يعيد النموذج اختراع ذلك المكان فعليًا بدلًا من الحفاظ على الاستمرارية مع الرؤية السابقة.

بالنسبة إلى الروبوتات، هذه الإخفاقات ليست شكلية. فبيئة المحاكاة التي تعيد تشكيل نفسها بشكل خفي أثناء الاستكشاف تمثل أساسًا ضعيفًا لتدريب الأنظمة المجسدة التي تعتمد على بنية مكانية مستقرة. تصبح الملاحة والتعامل والتخطيط أقل موثوقية إذا لم يكن العالم نفسه دائم الثبات.

لهذا السبب تكتسب اتساقية المشهد أهمية أكبر من الجِدة. فالعالم التدريبي القابل للاستخدام يحتاج إلى قدر كافٍ من الثبات بحيث يمكن للوكيل أن يتحرك فيه كما لو كان مكانًا حقيقيًا، لا مجرد تدفق من الصور المعقولة.

Create, edit and star in videos with two Google Vids updates

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

توسّع Google إنشاء الفيديو بالذكاء الاصطناعي داخل Workspace عبر توليد المقاطع وتحريرها بالاعتماد على الأوامر النصية، إلى جانب صور رمزية مخصصة تُنشأ من صورة سيلفي وتسجيل صوتي.

Read article

كيف تحاول Lyra 2.0 حل المشكلة

يقول التقرير إن Lyra 2.0 يخزن الهندسة ثلاثية الأبعاد لكل إطار يجري توليده. وعندما تعود الكاميرا الافتراضية نحو منطقة سبق زيارتها، يسترجع النظام تلك الإطارات السابقة ويستخدم معلوماتها المكانية كمادة مرجعية. ولا يزال توليد الصورة نفسه يُدار بواسطة نموذج الفيديو، لكن الهندسة المخزنة تهدف إلى الحفاظ على الاتجاه والمساعدة في صون الاستمرارية.

هذا التصميم يستهدف الضعف الكبير الأول في الأنظمة السابقة: النسيان. فإذا أمكن استدعاء المناطق التي شوهدت سابقًا وإعادة تثبيتها عبر الهندسة المخزنة، فستكون هناك فرصة أفضل لأن يبقى المشهد المولد متماسكًا على مسارات أطول.

أما المشكلة الثانية فهي الانجراف، حيث تتراكم أخطاء التوليد الصغيرة خطوة بعد خطوة. ووفقًا للتقرير، فإن رد Nvidia هو تدريب النموذج على مخرجاته المعيبة نفسها حتى يتعلم التعرف على التدهور وتصحيحه بدلًا من مجرد توريثه. إنها استراتيجية عملية. فبدلًا من افتراض أن التوليد سيكون نظيفًا، تعرّض عملية التدريب النموذج للضوضاء التي يُرجح أن ينتجها.

ادعاءات الاختبارات المعيارية والسياق التنافسي

تقول Nvidia إن Lyra 2.0 تفوق على ستة أساليب منافسة، بما في ذلك GEN3C وYume-1.5 وCaM، في اختبارات معيارية على مجموعتي بيانات. ولا يقدّم التقرير التفاصيل الكاملة لتلك التقييمات، لذا ينبغي قراءة الادعاء التنافسي بوصفه خلاصة لا مقارنة تقنية كاملة. ومع ذلك، فالدلالة واضحة بما يكفي: Nvidia تقدم Lyra 2.0 ليس كفضول مختبري، بل كمنافس رائد في توليد المشاهد بعيدة المدى.

ويكتسب هذا التأطير أهمية لأن المجال مزدحم. فهناك العديد من الفرق التي تعمل على تحويل الصور إلى ثلاثي الأبعاد، ونماذج العالم بالفيديو، والأنظمة التوليدية المناسبة للمحاكاة. ولتمييز نفسه، يجب على أي نهج أن يثبت ليس فقط قدرته على تقديم عروض جذابة، بل أيضًا الحفاظ على جودة المشهد أثناء الحركة.

لماذا تُعد الروبوتات حالة الاستخدام المباشرة

إن مسار التصدير المباشر إلى محركات فيزيائية مثل Isaac Sim هو أحد أهم التفاصيل في التقرير. فهو يشير إلى أن Nvidia لا تهتم فقط بتوليد المحتوى لأغراض العرض المرئي أو الجولات الافتراضية، بل إن الهدف هو الذكاء الاصطناعي المجسد.

غالبًا ما يعاني تدريب الروبوتات من اختناق في البيانات. فجمع البيانات في العالم الحقيقي مكلف، وبناء البيئات المحاكاة يدويًا يستغرق وقتًا طويلًا. ويمكن لنظام قادر على توليد مساحات ثلاثية الأبعاد معقولة وقابلة للاستكشاف من صورة واحدة أن يساعد على توسيع بيانات التدريب بسرعة أكبر، خاصةً في مهام الملاحة أو التفاعل التي تهم فيها تنوعات البيئة.

ومن الناحية العملية، قد يتيح ذلك للمطورين البدء بمراجع بصرية محدودة والتوسع بها بسرعة إلى مشاهد محاكاة قابلة للاستخدام. ولن يحل ذلك محل التحقق من العالم الحقيقي، لكنه قد يوسّع خط أنابيب ما قبل التدريب والاختبار.

ما الذي يحله هذا وما الذي لا يحله

تعالج Lyra 2.0 عائقًا تقنيًا حقيقيًا، لكن لا ينبغي الخلط بينها وبين الواقعية الفيزيائية الكاملة. فشيء أن تولد مشهدًا متماسكًا، وشيء آخر أن تولد مشهدًا تكون هندسته ومواده وديناميكياته وقابلية استخدام الأجسام فيه دقيقة بما يكفي لنقل موثوق إلى روبوتات حقيقية.

وهذا الفرق مهم لأن قيمة المحاكاة لا تتحقق إلا بقدر ما تنجو السلوكيات المتعلمة فيها عند ملامسة الواقع. حتى التماسك البصري الممتاز لا يضمن تلقائيًا فيزياء مفيدة أو تفاعلًا صحيحًا مع الأجسام. ويعترف تقرير Nvidia بهذا بشكل غير مباشر من خلال التركيز على التصدير إلى محركات فيزيائية، ما يشير إلى أن مخرجات Lyra ليست حلًا كاملًا بحد ذاتها، بل جزء من طبقة محاكاة أوسع.

خطوة نحو توليد عوالم قابلة للتوسع

ومع ذلك، تظل هذه الأعمال لافتة لأنها تدفع المجال نحو طريقة أكثر قابلية للتوسع في بناء عوالم تدريب للروبوتات. إن الجمع بين الاتساق على المسارات الطويلة، واستدعاء الهندسة بشكل صريح، والتدريب الواعي بالانجراف يعالج بالضبط المشكلات التي قيّدت الأنظمة السابقة. وإذا صمدت هذه المكاسب في الاستخدام الأوسع، فقد تساعد Lyra 2.0 على خفض أحد التكاليف الخفية في تطوير الروبوتات: بناء عدد كافٍ من العوالم التي تتعلم فيها الروبوتات.

وهذه هي الأهمية الأعمق. فالتقدم في الروبوتات لا يتعلق فقط بسياسات أفضل ونماذج أكبر، بل يتعلق أيضًا ببيئات أفضل. لا يستطيع الروبوت أن يتعلم إلا من العوالم التي يراها، وأصبح توليد تلك العوالم جيدًا مشكلة ذكاء اصطناعي مهمة بحد ذاتها.

هذه المقالة مبنية على تقرير من The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

تسعى Lyra 2.0 من Nvidia إلى تحويل صورة واحدة إلى عوالم روبوتية قابلة للمشي للتدريب