Mirage يحسن ذاكرة نماذج العالم المرئي بالفيديو

نماذج العالم تواجه مشكلة في الذاكرة

تحسنت أنظمة توليد الفيديو بسرعة، لكن نقطة ضعف ظلت قائمة: فهي غالبًا ما تفقد تتبعها للمكان المادي مع مرور الوقت. تتغير هيئة الغرفة عندما تعود الكاميرا للدوران. تتحرك قطع الأثاث. لم تعد الأسطح تطابق ما عرضه النموذج قبل لحظات. هذا الخلل يحد بشكل خاص من ما يُعرف بنماذج العالم، حيث تكون الاستمرارية أهم من الجودة البصرية المنفصلة.

يُقدَّم نظام جديد باسم Mirage، طوره Microsoft Research ومتعاونون أكاديميون، باعتباره وسيلة لمعالجة هذه المشكلة بكفاءة أكبر. فبدلًا من الاعتماد على خط ذاكرة ثلاثي الأبعاد تقليدي قائم على البكسلات، يخزن Mirage معلومات المشهد مباشرة في الفضاء الكامن للنموذج. والنتيجة، وفقًا للمادة المصدرية، هي اتساق مكاني أكثر ثباتًا أثناء حركة الكاميرا الممتدة، إلى جانب مكاسب كبيرة في السرعة وكفاءة الذاكرة.

يتميز المشروع لأنه يعالج أحد الاختناقات العملية في المحاكاة التوليدية: كيف نتذكر مكانًا ما من دون دفع تكلفة حسابية مفرطة كلما تغيرت زاوية الرؤية.

لماذا خطوط الذاكرة القديمة مكلفة

في كثير من الأنظمة السابقة، تُحافَظ الذاكرة المكانية عبر سحابة نقاط ثلاثية الأبعاد تُبنى من بيانات الصور المرئية. ومع توليد النموذج لمشاهد جديدة، يقوم بتحديث تلك السحابة ثم يعيد عرضها مرارًا في شكل يمكن للمولد استخدامه. يخلق ذلك حلقة تنقل المعلومات من السمات الكامنة إلى بنية في فضاء البكسلات ثم تعيدها مرة أخرى.

ويصف مؤلفو Mirage هذا النهج بأنه عنق زجاجة مزدوج. فهو مكلف حسابيًا، كما أنه يعرّض المعلومات لفقدانها أثناء التحولات المتكررة عبر فضاء الصور المعروضة. وفي التسلسلات الطويلة، يمكن أن تتراكم هذه الخسائر لتؤدي إلى عدم استقرار مرئي. قد ينتج النموذج لقطات تبدو معقولة محليًا بينما يبتعد تدريجيًا عن هندسة المشهد الذي يفترض أن يحافظ عليه.

وهذا مهم لأن نماذج العالم تُناقش على نحو متزايد كأدوات للمحاكاة، وتدريب الذكاء الاصطناعي المجسد، والبيئات الاصطناعية، وتوليد المشاهد التفاعلية. في مثل هذه البيئات، الذاكرة ليست اختيارية. فالنموذج الذي ينسى ما يوجد خلف الزاوية لا يمكنه أن يعمل كنموذج بيئي موثوق لفترة طويلة.

Comparison diagram of two video world model pipelines. Top: an RGB point cloud memory with a render-and-encode loop. Bottom: Mirage — خطا أنابيب لنماذج العالم المرئي بالفيديو جنبًا إلى جنب. في الأعلى: ذاكرة سحابة نقاط RGB مع حلقة عرض وترميز. في الأسفل: الذاكرة المكانية الكامنة لـ Mirage، المبنية والمقروءة مباشرة في الفضاء الكامن. | Image: Wang et al.

Edge AI software layer diagram from Numurus.

قد تصبح الذكاء الاصطناعي الطرفي طبقة ويندوز للروبوتات

تهدف فئة متنامية من برمجيات الذكاء الاصطناعي الطرفي إلى تسهيل بناء الروبوتات ونشرها عبر تجريد تعقيد العتاد عن غير المتخصصين.

Read article

الفكرة الأساسية في Mirage

يسلك Mirage مسارًا مختلفًا عبر تخزين السمات الداخلية للصورة مباشرة في ذاكرة مكانية داخل الفضاء الكامن. وبدلًا من حفظ النقاط اللونية المرئية فقط، يثبت تلك السمات المتعلمة عند مواقع في الفضاء ثلاثي الأبعاد. وعندما يحتاج النظام إلى توليد زاوية رؤية جديدة، فإنه يسقط تلك الذاكرة الكامنة على منظور الكاميرا الهدف ويعيد النتيجة مباشرة إلى المولد.

ومن خلال تجنب المرور المرهق بالعرض وإعادة الترميز عبر سحب النقاط في فضاء البكسلات، صُمم Mirage لتوفير الوقت والذاكرة معًا. ويذكر النص المصدر أنه يمكنه توليد الفيديوهات بسرعة تصل إلى 10.5 مرات أكثر، واستخدام ذاكرة أقل حتى 55 مرة من النماذج المماثلة. وهذه من نوعية المكاسب التي قد تحدد ما إذا كانت التقنية ستبقى مجرد فضول بحثي أم ستصبح مفيدة عمليًا.

كما يتماشى هذا النهج مع نمط أوسع في الذكاء الاصطناعي التوليدي: نقل المزيد من أعمال التمثيل المهمة إلى الفضاءات الكامنة، حيث يمكن للنماذج العمل على سمات أكثر إحكامًا ومعنىً دلاليًا من الاعتماد على البكسلات الخام وحدها.

ما الذي يبدو أن النظام يحسنه

الوعد الأساسي لـ Mirage ليس الكفاءة فقط، بل الثبات. فالنموذج مُصمم للحفاظ على اتساق البنية المكانية للمشاهد المولدة حتى أثناء المسارات الطويلة للكاميرا، مما يقلل الميل إلى عودة زوايا الرؤية المتكررة وقد تغيرت. وهذا يجعله مهمًا بشكل خاص للتطبيقات التي تكون فيها استمرارية المشهد جزءًا من المهمة نفسها لا مجرد ميزة جمالية.

ومن المهم أن المصدر يشير إلى أن الأجسام المتحركة ما تزال تُستبعد من الذاكرة. وهذا يعني أن Mirage يركز حاليًا أكثر على الحفاظ على تخطيط المشهد الثابت بدلًا من النمذجة الكاملة للبيئات الديناميكية التي تتحرك فيها عدة أجسام بشكل مستقل عبر الزمن. ومع ذلك، فإن تثبيت العالم الساكن يمثل خطوة كبيرة لأنه يعالج طبقة أساسية من المشكلة.

نموذج عالم يمكنه تذكر العمارة أو تخطيط الغرفة أو هندسة التضاريس باستمرار يوفر أساسًا أقوى للأنظمة المستقبلية التي قد تدمج لاحقًا معالجة أكثر تطورًا للحركة والتفاعل.

تهدف “Count Anything” إلى تحويل عدّ الأجسام إلى مهارة عامة في الذكاء الاصطناعي

يستخدم نموذج بحثي جديد يُدعى Count Anything أوامر نصية لعدّ الأجسام عبر صور تتنوع من مشاهد الحشود إلى الفحوص الطبية وصور الأقمار الصناعية.

Read article

لماذا يهم ذلك بما يتجاوز عروض توليد الفيديو

غالبًا ما تُعرض أبحاث الفيديو التوليدي عبر مقاطع قصيرة واستعراض بصري، لكن التطورات الأكثر أثرًا قد تأتي من أنظمة تدعم المحاكاة. فإذا كان من المقرر استخدام نماذج الذكاء الاصطناعي كبيئات تدريب للروبوتات أو الوكلاء الافتراضيين أو أنظمة التخطيط أو أدوات المحتوى التفاعلي، فهي تحتاج إلى شكل من أشكال الحالة الدائمة للعالم.

Mirage pipeline in which a VAE plus depth estimation builds the latent cache from the first frame. Each generation chunk reads from it via readout and updates it via write, while the latent 3D representation grows over time from t0 to tN. — يبدأ Mirage ذاكرته الكامنة من الصورة الأولى، ثم يقرأ منها ويكتب إليها على دفعات، محافظًا على المحتوى الثابت للمشهد عبر التشغيل بالكامل. | Image: Wang et al.

وهنا تصبح Mirage لافتة للنظر. فهي تشير إلى جيل من النماذج يعامل ذاكرة المشهد كموارد داخلية منظمة بدلًا من أن تكون أثرًا هشًا للتنبؤ إطارًا بعد إطار. وقد تساعد الذاكرة المكانية الفعالة على سد الفجوة بين التوليدات الفردية المبهرة والبيئات المحاكية القابلة لإعادة الاستخدام.

وهناك أيضًا جانب بنيوي. فما تزال تكلفة الحوسبة أحد القيود الحاسمة في نشر الذكاء الاصطناعي. فالأساليب التي تقلل زمن المعالجة ومتطلبات الذاكرة يمكن أن توسع دائرة الباحثين والشركات القادرين على تجربة نماذج العالم المتقدمة. وغالبًا ما تشكل تحسينات الكفاءة وتيرة التبني بقدر ما تفعل تحسينات الجودة.

الإشارة البحثية التي تستحق المتابعة

لا يزال ينبغي النظر إلى Mirage باعتباره تطورًا بحثيًا لا منصة مكتملة. تركز المواد المتاحة على معماريته ومزاياه في الاختبارات المعيارية أكثر من تركيزها على نشر واسع. وما تزال هناك أسئلة حول مدى قابلية النهج للتعميم، وكيفية أدائه عبر المشاهد الأكثر تعقيدًا أو ديناميكية، وكيفية اندماجه مع مهام المحاكاة اللاحقة.

لكن اتجاه الورقة مهم. فبدلًا من مطاردة واقعية الفيديو عبر توليد أكبر وأكثر اعتمادًا على القوة الغاشمة، يعالج Mirage ضعفًا بنيويًا في الطريقة التي تمثل بها النماذج الفضاء. وهذا تحول ذو معنى لأن الذاكرة الموثوقة شرط أساسي لأي نموذج يطمح إلى العمل كعالم لا كآلة مقاطع.

عمليًا، يشير النظام إلى أن اتساق المشهد على المدى الطويل لا يحتاج إلى الاعتماد على حلقة ذاكرة مكلفة في فضاء البكسلات. فقد تكون آلية أخف في الفضاء الكامن كافية للحفاظ على قدر أكبر من العالم مع إنفاق أقل لتحقيق ذلك.

وبالنسبة لأبحاث الذكاء الاصطناعي، فهذه تركيبة قوية. فالتماسك الأفضل يجعل نماذج العالم أكثر فائدة. والتكلفة الأقل تجعلها أكثر قابلية للتوسع. وإذا صمدت ادعاءات Mirage أمام اختبارات أوسع، فقد تؤثر في كيفية معالجة الجيل القادم من نماذج الفيديو والمحاكاة لإحدى أصعب مشكلاتها: تذكر المكان الذي توجد فيه.

هذه المقالة مبنية على تقرير من The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

Mirage المدعوم من Microsoft يسرّع نماذج العالم المرئي بالفيديو عبر ذاكرة مكانية كامنة