Naver का Seoul World Model AI वीडियो को वास्तविक शहर ज्यामिति में आधार देता है

जनरेटिव वीडियो में छवि गुणवत्ता से परे भी यथार्थवाद की समस्या है

हाल के कई वीडियो वर्ल्ड मॉडल एक प्रॉम्प्ट से प्रभावशाली क्लिप बना सकते हैं, लेकिन उनमें एक मूल सीमा बनी रहती है: वे जिन दुनियाओं को उत्पन्न करते हैं, वे अक्सर केवल थोड़े समय तक ही सुसंगत रहती हैं। सड़कें असंभव आकार ले लेती हैं, इमारतें बदल जाती हैं, और शहर के अनदेखे हिस्से तुरंत गढ़ लिए जाते हैं। Naver के Seoul World Model, या SWM, पर उपलब्ध स्रोत पाठ दिलचस्प है क्योंकि यह इस समस्या की जड़ पर वार करता है। एक AI सिस्टम से एक संभावित शहर का भ्रम उत्पन्न कराने के बजाय, Naver जनरेशन को एक वास्तविक शहर की ज्यामिति और रूप-रंग से जोड़ता है।

प्रदान किए गए लेख के अनुसार, यह सिस्टम Naver Map, दक्षिण कोरिया की स्ट्रीट-व्यू सेवा, की 1.2 मिलियन पैनोरमिक छवियों का उपयोग करके स्थान-आधारित वीडियो बनाता है। उपयोगकर्ता भौगोलिक निर्देशांक, कैमरा गति, और एक पाठ प्रॉम्प्ट देते हैं, और मॉडल चरण-दर-चरण जनरेशन के लिए दृश्य मार्गदर्शक के रूप में पास की स्ट्रीट-व्यू छवियों को पुनः प्राप्त करता है।

असली भूगोल ही इसका उद्देश्य है

लेख SWM को किसी वास्तविक भौतिक स्थान से जुड़ा पहला वर्ल्ड मॉडल बताता है। यह एक महत्वपूर्ण अंतर है। पिछले सिस्टम किसी वास्तविक फ्रेम से शुरुआत कर सकते हैं या वास्तविक दुनिया के दृश्यों की नकल कर सकते हैं, लेकिन जैसे ही जनरेशन कैमरे द्वारा मूल रूप से देखी गई सीमा से आगे बढ़ती है, वे वास्तविक शहर संरचना से जुड़े नहीं रहते। SWM को विशेष रूप से इस ड्रिफ्ट को कम करने के लिए डिज़ाइन किया गया है।

यह महत्वपूर्ण है क्योंकि स्थिरता उन सबसे बड़ी बाधाओं में से एक है जो प्रभावशाली डेमो को भरोसेमंद टूल्स से अलग करती है। ऐसा जनरेट किया गया शहर जो मार्ग-तर्क, इमारतों की स्थिति, या दृश्य निरंतरता को बनाए नहीं रख सकता, मनोरंजक तो है, लेकिन सीमित है। जो मॉडल वास्तविक मानचित्र पर आधारित रहता है, वह सिमुलेशन, योजना, स्थान-जागरूक कहानी कहने, या ऐसे प्रशिक्षण वातावरण में उपयोगी हो सकता है जहाँ भूगोल मायने रखता है।

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

Anthropic के एक अध्ययन में सामाजिक विज्ञान में कोडिंग-एजेंट अपनाने में बड़े अंतर पाए गए, जो लिंग, क्षेत्र, करियर चरण और विश्वविद्यालय रैंक के आधार पर बदलते हैं।

Read article

कठिन हिस्सा यह है कि शहर स्थिर नहीं होते

प्रदान किया गया पाठ यह भी बताता है कि वास्तविक स्ट्रीट डेटा अपनी तकनीकी चुनौतियाँ कैसे लाता है। स्ट्रीट-व्यू पैनोरामा केवल एक क्षण की तस्वीर होते हैं। इनमें पार्क की हुई गाड़ियाँ, पैदल यात्री, और अस्थायी वस्तुएँ दिखाई देती हैं जो शहर के स्थायी प्रतिनिधित्व का हिस्सा नहीं होतीं। इसलिए सिस्टम को स्थायी संरचनाओं को अस्थायी सामग्री से अलग करना पड़ता है।

लेख के अनुसार, Naver का तरीका अलग-अलग समय पर ली गई रिकॉर्डिंग्स का विश्लेषण करना है ताकि मॉडल इमारतों और सड़कों को अल्पकालिक दृश्य तत्वों से अलग कर सके। यह गायब कैमरा कोणों को भरने के लिए सिम्युलेटेड वीडियो का भी उपयोग करता है, और लंबी जनरेशन के लिए मार्ग के आगे के अतिरिक्त स्ट्रीट-व्यू चित्रों को एंकर की तरह इस्तेमाल करता है। दूसरे शब्दों में, मॉडल केवल संग्रहीत छवियों को दोहरा नहीं रहा है। वह शहरी स्थान का एक आधारयुक्त लेकिन लचीला प्रतिनिधित्व बनाने की कोशिश कर रहा है।

बेंचमार्क व्यावहारिक लाभ का संकेत देते हैं

प्रदर्शन के मामले में, प्रदान की गई रिपोर्ट कहती है कि SWM ने दृश्य गुणवत्ता और कालिक सुसंगतता, दोनों में छह मौजूदा वीडियो वर्ल्ड मॉडलों से बेहतर प्रदर्शन किया। यह भी कहा गया है कि सिस्टम ने Busan और Ann Arbor सहित अपरिचित शहरों में, बिना अतिरिक्त प्रशिक्षण के, सामान्यीकरण किया।

इन दोनों दावों का संयोजन महत्वपूर्ण है। केवल बेहतर गुणवत्ता सजावटी हो सकती है। केवल बेहतर सुसंगतता फिर भी प्रशिक्षण वातावरण से बाहर जाने के लिए बहुत नाजुक रह सकती है। अन्य शहरों में सामान्यीकरण से पता चलता है कि यह तरीका केवल इसलिए उपयोगी नहीं है क्योंकि उसने Seoul को याद कर लिया। लेख का निहितार्थ यह है कि वास्तविक ज्यामिति में जनरेशन को आधार देना एक व्यापक डिज़ाइन सिद्धांत बन सकता है, न कि केवल एक बार का स्थानीय डेमो।

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic उम्मीदवारों की परीक्षा के लिए इंटरव्यू में AI टूल्स पर रोक लगाता है

रिपोर्टों के अनुसार, Anthropic लाइव जॉब इंटरव्यू में AI सहायता पर प्रतिबंध लगाता है, जब तक कि स्पष्ट रूप से अनुमति न दी गई हो, क्योंकि कंपनी यह आकलन करना चाहती है कि उम्मीदवार अपने दम पर कैसे तर्क करते हैं।

Read article

यह एक डेटा-लाभ की कहानी भी है

Naver को अक्सर दक्षिण कोरिया का Google कहा जाता है, और यहाँ वह तुलना महत्वपूर्ण है क्योंकि मॉडल की ताकत एक बड़े स्वामित्व वाले मैपिंग अभिलेखागार तक पहुँच पर निर्भर करती है। कंपनी का प्रमुख स्थानीय खोज और मैपिंग पारितंत्र उसे एक ऐसा डेटा-एसेट देता है जो कई AI लैब्स के पास नहीं होता। SWM दिखाता है कि जब जनरेटिव-मॉडल अनुसंधान को घने, स्वामित्व वाले, वास्तविक-दुनिया के दृश्य डेटा के साथ जोड़ा जाता है, तो क्या संभव हो सकता है।

यह AI प्रतिस्पर्धा में एक दोहराने वाला विषय बन सकता है। सबसे मजबूत सिस्टम हमेशा केवल सबसे बड़े सामान्य मॉडल वाले नहीं होंगे। वे वे हो सकते हैं जो विशेष डोमेन डेटा से जुड़े हों, चाहे वह मानचित्र हों, सॉफ्टवेयर रिपॉजिटरी हों, मेडिकल रिकॉर्ड हों, या औद्योगिक लॉग्स।

उत्पाद निहितार्थ नवीनता से आगे जाते हैं

प्रदान किया गया लेख बताता है कि उपयोगकर्ता टेक्स्ट प्रॉम्प्ट के साथ जनरेट किए गए दृश्यों को संशोधित कर सकते हैं, जिनमें जलती हुई कारों या आकाशरेखा में एक विशाल राक्षस जैसी नाटकीय जोड़ शामिल हैं। ये उदाहरण नाटकीय हैं, लेकिन वे अंतर्निहित महत्वाकांक्षा को उजागर करते हैं: दुनिया को इतना वास्तविक रखें कि वह भौगोलिक रूप से विश्वसनीय हो, जबकि उसके ऊपर जनरेटिव स्वतंत्रता दी जाए।

यह संतुलन सिमुलेशन, स्थानीय विज्ञापन, शहरी विज़ुअलाइज़ेशन, रोबोटिक्स प्रशिक्षण, नेविगेशन इंटरफेस, और मनोरंजन के लिए महत्वपूर्ण हो सकता है। एक भरोसेमंद वर्ल्ड मॉडल केवल अधिक सुंदर वीडियो के बारे में नहीं है। यह स्थानिक भरोसे के बारे में है। यदि कोई AI सिस्टम यह बनाए रख सकता है कि चीज़ें कहाँ हैं, तो अधिक अनुप्रयोग व्यावहारिक हो जाते हैं।

AI मॉडल ने रेसिपी की तर्क-प्रणाली को स्वाद-रसायन से अलग किया

Kaikaku.AI के नए शोध का तर्क है कि खाद्य अनुशंसा प्रणालियों को उन अवयवों में अंतर करना चाहिए जो रेसिपियों में साथ आते हैं और उन अवयवों में जो रासायनिक रूप से समान हैं।

Read article

व्यापक सबक सरल है

पिछले दो वर्षों में, जनरेटिव AI ने अक्सर hallucination को टेक्स्ट समस्या और consistency को शैली समस्या के रूप में देखा है। Naver का Seoul World Model सुझाव देता है कि ये वर्ल्ड-मॉडलिंग समस्याएँ भी हैं। यदि सिस्टम को यह नहीं पता कि वह किस शहर में है, तो वह आपको कोने के बाद आगे क्या है, यह विश्वसनीय रूप से नहीं दिखा सकता।

जनरेशन को वास्तविक निर्देशांकों और वास्तविक शहरी छवियों से जोड़कर, Naver कृत्रिम वीडियो के लिए एक सख्त मानक प्रस्तावित कर रहा है: केवल संभाव्य नहीं, बल्कि स्थान-जागरूक। यदि यह दृष्टिकोण आगे भी स्केल करता है, तो यह जनरेटिव मीडिया में मुक्त-रूप आविष्कार से आधारयुक्त सिमुलेशन की ओर एक महत्वपूर्ण बदलाव चिह्नित कर सकता है। इससे hallucinations समाप्त नहीं होंगी। यह बस उन्हें आकाशरेखा के भीतर छिपाना कठिन बना देगा।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com

Naver का Seoul World Model जनरेटिव वीडियो की एक मूलभूत कमजोरी को ठीक करने की कोशिश करता है

जनरेटिव वीडियो में छवि गुणवत्ता से परे भी यथार्थवाद की समस्या है

असली भूगोल ही इसका उद्देश्य है

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

कठिन हिस्सा यह है कि शहर स्थिर नहीं होते

बेंचमार्क व्यावहारिक लाभ का संकेत देते हैं

Anthropic उम्मीदवारों की परीक्षा के लिए इंटरव्यू में AI टूल्स पर रोक लगाता है

यह एक डेटा-लाभ की कहानी भी है

उत्पाद निहितार्थ नवीनता से आगे जाते हैं

AI मॉडल ने रेसिपी की तर्क-प्रणाली को स्वाद-रसायन से अलग किया

व्यापक सबक सरल है

Comments (0)

Related Articles

MISUMI ने $1 अरब के AI निर्माण दांव के साथ Americas अभियान शुरू किया

Microsoft और Nvidia कथित तौर पर AI PCs को स्थानीय एजेंटों की ओर धकेल रहे हैं

Keep Reading