जनरेटिव वीडियो में छवि गुणवत्ता से परे भी यथार्थवाद की समस्या है
हाल के कई वीडियो वर्ल्ड मॉडल एक प्रॉम्प्ट से प्रभावशाली क्लिप बना सकते हैं, लेकिन उनमें एक मूल सीमा बनी रहती है: वे जिन दुनियाओं को उत्पन्न करते हैं, वे अक्सर केवल थोड़े समय तक ही सुसंगत रहती हैं। सड़कें असंभव आकार ले लेती हैं, इमारतें बदल जाती हैं, और शहर के अनदेखे हिस्से तुरंत गढ़ लिए जाते हैं। Naver के Seoul World Model, या SWM, पर उपलब्ध स्रोत पाठ दिलचस्प है क्योंकि यह इस समस्या की जड़ पर वार करता है। एक AI सिस्टम से एक संभावित शहर का भ्रम उत्पन्न कराने के बजाय, Naver जनरेशन को एक वास्तविक शहर की ज्यामिति और रूप-रंग से जोड़ता है।
प्रदान किए गए लेख के अनुसार, यह सिस्टम Naver Map, दक्षिण कोरिया की स्ट्रीट-व्यू सेवा, की 1.2 मिलियन पैनोरमिक छवियों का उपयोग करके स्थान-आधारित वीडियो बनाता है। उपयोगकर्ता भौगोलिक निर्देशांक, कैमरा गति, और एक पाठ प्रॉम्प्ट देते हैं, और मॉडल चरण-दर-चरण जनरेशन के लिए दृश्य मार्गदर्शक के रूप में पास की स्ट्रीट-व्यू छवियों को पुनः प्राप्त करता है।
असली भूगोल ही इसका उद्देश्य है
लेख SWM को किसी वास्तविक भौतिक स्थान से जुड़ा पहला वर्ल्ड मॉडल बताता है। यह एक महत्वपूर्ण अंतर है। पिछले सिस्टम किसी वास्तविक फ्रेम से शुरुआत कर सकते हैं या वास्तविक दुनिया के दृश्यों की नकल कर सकते हैं, लेकिन जैसे ही जनरेशन कैमरे द्वारा मूल रूप से देखी गई सीमा से आगे बढ़ती है, वे वास्तविक शहर संरचना से जुड़े नहीं रहते। SWM को विशेष रूप से इस ड्रिफ्ट को कम करने के लिए डिज़ाइन किया गया है।
यह महत्वपूर्ण है क्योंकि स्थिरता उन सबसे बड़ी बाधाओं में से एक है जो प्रभावशाली डेमो को भरोसेमंद टूल्स से अलग करती है। ऐसा जनरेट किया गया शहर जो मार्ग-तर्क, इमारतों की स्थिति, या दृश्य निरंतरता को बनाए नहीं रख सकता, मनोरंजक तो है, लेकिन सीमित है। जो मॉडल वास्तविक मानचित्र पर आधारित रहता है, वह सिमुलेशन, योजना, स्थान-जागरूक कहानी कहने, या ऐसे प्रशिक्षण वातावरण में उपयोगी हो सकता है जहाँ भूगोल मायने रखता है।
कठिन हिस्सा यह है कि शहर स्थिर नहीं होते
प्रदान किया गया पाठ यह भी बताता है कि वास्तविक स्ट्रीट डेटा अपनी तकनीकी चुनौतियाँ कैसे लाता है। स्ट्रीट-व्यू पैनोरामा केवल एक क्षण की तस्वीर होते हैं। इनमें पार्क की हुई गाड़ियाँ, पैदल यात्री, और अस्थायी वस्तुएँ दिखाई देती हैं जो शहर के स्थायी प्रतिनिधित्व का हिस्सा नहीं होतीं। इसलिए सिस्टम को स्थायी संरचनाओं को अस्थायी सामग्री से अलग करना पड़ता है।
लेख के अनुसार, Naver का तरीका अलग-अलग समय पर ली गई रिकॉर्डिंग्स का विश्लेषण करना है ताकि मॉडल इमारतों और सड़कों को अल्पकालिक दृश्य तत्वों से अलग कर सके। यह गायब कैमरा कोणों को भरने के लिए सिम्युलेटेड वीडियो का भी उपयोग करता है, और लंबी जनरेशन के लिए मार्ग के आगे के अतिरिक्त स्ट्रीट-व्यू चित्रों को एंकर की तरह इस्तेमाल करता है। दूसरे शब्दों में, मॉडल केवल संग्रहीत छवियों को दोहरा नहीं रहा है। वह शहरी स्थान का एक आधारयुक्त लेकिन लचीला प्रतिनिधित्व बनाने की कोशिश कर रहा है।
बेंचमार्क व्यावहारिक लाभ का संकेत देते हैं
प्रदर्शन के मामले में, प्रदान की गई रिपोर्ट कहती है कि SWM ने दृश्य गुणवत्ता और कालिक सुसंगतता, दोनों में छह मौजूदा वीडियो वर्ल्ड मॉडलों से बेहतर प्रदर्शन किया। यह भी कहा गया है कि सिस्टम ने Busan और Ann Arbor सहित अपरिचित शहरों में, बिना अतिरिक्त प्रशिक्षण के, सामान्यीकरण किया।
इन दोनों दावों का संयोजन महत्वपूर्ण है। केवल बेहतर गुणवत्ता सजावटी हो सकती है। केवल बेहतर सुसंगतता फिर भी प्रशिक्षण वातावरण से बाहर जाने के लिए बहुत नाजुक रह सकती है। अन्य शहरों में सामान्यीकरण से पता चलता है कि यह तरीका केवल इसलिए उपयोगी नहीं है क्योंकि उसने Seoul को याद कर लिया। लेख का निहितार्थ यह है कि वास्तविक ज्यामिति में जनरेशन को आधार देना एक व्यापक डिज़ाइन सिद्धांत बन सकता है, न कि केवल एक बार का स्थानीय डेमो।
यह एक डेटा-लाभ की कहानी भी है
Naver को अक्सर दक्षिण कोरिया का Google कहा जाता है, और यहाँ वह तुलना महत्वपूर्ण है क्योंकि मॉडल की ताकत एक बड़े स्वामित्व वाले मैपिंग अभिलेखागार तक पहुँच पर निर्भर करती है। कंपनी का प्रमुख स्थानीय खोज और मैपिंग पारितंत्र उसे एक ऐसा डेटा-एसेट देता है जो कई AI लैब्स के पास नहीं होता। SWM दिखाता है कि जब जनरेटिव-मॉडल अनुसंधान को घने, स्वामित्व वाले, वास्तविक-दुनिया के दृश्य डेटा के साथ जोड़ा जाता है, तो क्या संभव हो सकता है।
यह AI प्रतिस्पर्धा में एक दोहराने वाला विषय बन सकता है। सबसे मजबूत सिस्टम हमेशा केवल सबसे बड़े सामान्य मॉडल वाले नहीं होंगे। वे वे हो सकते हैं जो विशेष डोमेन डेटा से जुड़े हों, चाहे वह मानचित्र हों, सॉफ्टवेयर रिपॉजिटरी हों, मेडिकल रिकॉर्ड हों, या औद्योगिक लॉग्स।
उत्पाद निहितार्थ नवीनता से आगे जाते हैं
प्रदान किया गया लेख बताता है कि उपयोगकर्ता टेक्स्ट प्रॉम्प्ट के साथ जनरेट किए गए दृश्यों को संशोधित कर सकते हैं, जिनमें जलती हुई कारों या आकाशरेखा में एक विशाल राक्षस जैसी नाटकीय जोड़ शामिल हैं। ये उदाहरण नाटकीय हैं, लेकिन वे अंतर्निहित महत्वाकांक्षा को उजागर करते हैं: दुनिया को इतना वास्तविक रखें कि वह भौगोलिक रूप से विश्वसनीय हो, जबकि उसके ऊपर जनरेटिव स्वतंत्रता दी जाए।
यह संतुलन सिमुलेशन, स्थानीय विज्ञापन, शहरी विज़ुअलाइज़ेशन, रोबोटिक्स प्रशिक्षण, नेविगेशन इंटरफेस, और मनोरंजन के लिए महत्वपूर्ण हो सकता है। एक भरोसेमंद वर्ल्ड मॉडल केवल अधिक सुंदर वीडियो के बारे में नहीं है। यह स्थानिक भरोसे के बारे में है। यदि कोई AI सिस्टम यह बनाए रख सकता है कि चीज़ें कहाँ हैं, तो अधिक अनुप्रयोग व्यावहारिक हो जाते हैं।
व्यापक सबक सरल है
पिछले दो वर्षों में, जनरेटिव AI ने अक्सर hallucination को टेक्स्ट समस्या और consistency को शैली समस्या के रूप में देखा है। Naver का Seoul World Model सुझाव देता है कि ये वर्ल्ड-मॉडलिंग समस्याएँ भी हैं। यदि सिस्टम को यह नहीं पता कि वह किस शहर में है, तो वह आपको कोने के बाद आगे क्या है, यह विश्वसनीय रूप से नहीं दिखा सकता।
जनरेशन को वास्तविक निर्देशांकों और वास्तविक शहरी छवियों से जोड़कर, Naver कृत्रिम वीडियो के लिए एक सख्त मानक प्रस्तावित कर रहा है: केवल संभाव्य नहीं, बल्कि स्थान-जागरूक। यदि यह दृष्टिकोण आगे भी स्केल करता है, तो यह जनरेटिव मीडिया में मुक्त-रूप आविष्कार से आधारयुक्त सिमुलेशन की ओर एक महत्वपूर्ण बदलाव चिह्नित कर सकता है। इससे hallucinations समाप्त नहीं होंगी। यह बस उन्हें आकाशरेखा के भीतर छिपाना कठिन बना देगा।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com



