نموذج العالم في سيول من Naver يؤسس فيديو الذكاء الاصطناعي على هندسة المدينة الحقيقية

لدى الفيديو التوليدي مشكلة واقعية تتجاوز جودة الصورة

يمكن للعديد من نماذج عوالم الفيديو الحديثة إنتاج مقاطع لافتة من مجرد prompt، لكنها ما تزال تشترك في قيد أساسي واحد: العوالم التي تولدها غالبًا ما تكون متماسكة فقط لفترات قصيرة. تنحني الشوارع إلى أشكال مستحيلة، وتتحول المباني، وتُختلق الأجزاء غير المرئية من المدينة على الفور. النص المصدر المقدم حول Seoul World Model، أو SWM، من Naver مثير للاهتمام لأنه يعالج هذه المشكلة من جذورها. بدلًا من أن يطلب من نظام ذكاء اصطناعي أن يهذي بمدينة تبدو معقولة، يربط Naver التوليد بهندسة وملامح مدينة حقيقية.

وفقًا للمقال المقدم، يستخدم النظام 1.2 مليون صورة بانورامية من Naver Map، وهي خدمة عرض الشوارع في كوريا الجنوبية، لبناء مقاطع فيديو قائمة على الموقع. يقدّم المستخدمون الإحداثيات الجغرافية وحركة الكاميرا ونصًا توجيهيًا، ثم يسترجع النموذج صور عرض الشوارع القريبة كأدلة بصرية للتوليد خطوة بخطوة.

الجغرافيا الحقيقية هي جوهر الفكرة

يصف المقال SWM بأنه أول نموذج عالم مرتبط بموقع مادي حقيقي. وهذا تمييز مهم. قد تبدأ الأنظمة السابقة من إطار حقيقي أو تقلّد مشاهد من العالم الواقعي، لكنها لا تبقى مرتبطة بالبنية الفعلية للمدينة عندما يتجاوز التوليد ما رآه الكاميرا في البداية. صُمم SWM تحديدًا لتقليل هذا الانجراف.

وهذا مهم لأن الاتساق أحد أكبر الحواجز التي تفصل العروض المبهرجة عن الأدوات الموثوقة. مدينة مولدة لا تستطيع الحفاظ على منطق المسار أو مواضع المباني أو استمرارية المشهد هي مدينة مسلية، لكنها محدودة. أما النموذج الذي يبقى مؤسسًا على خريطة حقيقية فقد يكون مفيدًا للمحاكاة والتخطيط والسرد الحساس للموقع أو بيئات التدريب التي تهم فيها الجغرافيا.

Create, edit and star in videos with two Google Vids updates

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

توسّع Google إنشاء الفيديو بالذكاء الاصطناعي داخل Workspace عبر توليد المقاطع وتحريرها بالاعتماد على الأوامر النصية، إلى جانب صور رمزية مخصصة تُنشأ من صورة سيلفي وتسجيل صوتي.

Read article

الجزء الصعب هو أن المدن ليست ثابتة

يوضح النص المقدم أيضًا لماذا تخلق بيانات عرض الشوارع الحقيقية تحديات تقنية خاصة بها. صور البانوراما هي لقطات لحظية. فهي تلتقط السيارات المتوقفة والمشاة والأشياء العابرة التي لا تنتمي إلى تمثيل مستقر للمدينة. لذلك يجب على النظام أن يميز بين البنى الدائمة والمحتوى المؤقت.

ويذكر المقال أن نهج Naver يقوم على تحليل تسجيلات مأخوذة في أوقات مختلفة حتى يتمكن النموذج من فصل المباني والطرق عن عناصر المشهد قصيرة العمر. كما يستخدم فيديو محاكى لملء زوايا الكاميرا المفقودة وصور عرض شوارع إضافية أبعد على طول المسار كنقاط ارتكاز لتوليدات أطول. وبعبارة أخرى، لا يقتصر النموذج على إعادة تشغيل صور مخزنة. إنه يحاول بناء تمثيل مؤسس لكنه مرن للمساحة الحضرية.

تشير المعايير إلى مكسب عملي

على صعيد الأداء، يقول التقرير المقدم إن SWM تفوق على ستة نماذج حالية لعوالم الفيديو في كل من الجودة البصرية والاتساق الزمني. كما يذكر أن النظام عمم على مدن غير مألوفة، بما فيها بوسان وآن آربر، من دون تدريب إضافي.

هاتان النقطتان مهمتان معًا. فمجرد تحسن الجودة قد يكون تجميليًا. ومجرد تحسن الاتساق قد يظل هشًا للغاية بحيث لا يخرج من بيئة التدريب. إن التعميم إلى مدن أخرى يوحي بأن الطريقة لا تنجح فقط لأنها حفظت سيول. والنتيجة التي يوحي بها المقال هي أن تأسيس التوليد على هندسة حقيقية يمكن أن يصبح مبدأ تصميم أوسع، لا مجرد عرض محلي لمرة واحدة.

هذه أيضًا قصة تفوق في البيانات

غالبًا ما يُوصف Naver بأنه Google كوريا الجنوبية، وهذه المقارنة مهمة هنا لأن قوة النموذج تعتمد على الوصول إلى أرشيف خرائطي ضخم ومملوك. إن هيمنة الشركة على منظومة البحث والخرائط المحلية تمنحها أصلًا بياناتيًا لا تملكه العديد من مختبرات الذكاء الاصطناعي. ويظهر SWM ما يمكن أن يحدث عندما يقترن بحث النماذج التوليدية ببيانات بصرية واقعية كثيفة ومملوكة.

وقد يصبح ذلك موضوعًا متكررًا في منافسة الذكاء الاصطناعي. فالأنظمة الأقوى لن تكون دائمًا تلك التي تمتلك أكبر نموذج عام فقط. قد تكون تلك المرتبطة ببيانات مميزة ومتخصصة في مجال معين، سواء كانت خرائط أو مستودعات برمجية أو سجلات طبية أو سجلات صناعية.

الآثار على المنتج تتجاوز مجرد الجِدّة

يسلط المقال المقدم الضوء على أن المستخدمين يمكنهم تعديل المشاهد المولدة عبر prompts نصية، بما في ذلك إضافات درامية مثل سيارات محترقة أو حتى وحش عملاق في خط الأفق. هذه الأمثلة مسرحية، لكنها تكشف الطموح الكامن: إبقاء العالم حقيقيًا بما يكفي ليكون مقنعًا جغرافيًا مع السماح بحرية توليدية فوقه.

قد يكون هذا التوازن مهمًا للمحاكاة والإعلانات المحلية والتصور الحضري وتدريب الروبوتات وواجهات الملاحة والترفيه. فالنموذج العالمي المقنع لا يتعلق فقط بفيديو أجمل. إنه يتعلق بالثقة المكانية. إذا كان بإمكان نظام ذكاء اصطناعي الحفاظ على مواضع الأشياء، تصبح تطبيقات أكثر ممكنة.

العبرة الأوسع بسيطة

على مدى العامين الماضيين، تعامل الذكاء الاصطناعي التوليدي كثيرًا مع الهلوسة بوصفها مشكلة نصية، ومع الاتساق بوصفه مشكلة أسلوب. ويشير Seoul World Model من Naver إلى أن هذين أيضًا مشكلتان في نمذجة العالم. إذا كان النظام لا يعرف في أي مدينة يوجد، فلن يستطيع أن يريك بشكل موثوق ما يوجد بعد الزاوية.

من خلال ربط التوليد بإحداثيات حقيقية وصور حضرية حقيقية، تقترح Naver معيارًا أكثر صرامة للفيديو الاصطناعي: ليس فقط معقولًا، بل واعيًا بالمكان. إذا واصل هذا النهج التوسع، فقد يمثل تحولًا مهمًا في الوسائط التوليدية من الاختراع الحر إلى المحاكاة المؤسَّسة. ذلك لن ينهي الهلوسات، لكنه سيجعل إخفاءها داخل الأفق الحضري أصعب.

هذا المقال مبني على تقرير The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

يحاول نموذج العالم في سيول من Naver إصلاح نقطة ضعف أساسية في الفيديو التوليدي