व्हिडिओ निर्मितीपासून सामायिक simulation कडे
AI प्रयोगशाळा Odyssey ने Agora-1 सादर केले आहे, एक world model जे एकावेळी चार खेळाडूंना एकाच AI-generated environment मध्ये ठेवू शकते. कंपनीने Nintendo 64 क्लासिक GoldenEye वापरून हे system दाखवले, गेमला live multi-player simulation मध्ये रूपांतरित केले, जिथे प्रत्येक सहभागीला shared underlying state मधून real time मध्ये तयार होणारा वेगळा viewpoint दिसतो.
हे प्रकाशन उल्लेखनीय आहे, कारण बहुतेक public world-model demonstrations एका active user वर केंद्रित होते. Agora-1 मात्र अधिक कठीण समस्येला लक्ष्य करते: अनेक लोक एकाच generated world मध्ये एकाच वेळी कार्य करत असताना अनेक perspectives सुसंगत ठेवणे.
Agora-1 ची रचना कशी आहे
source text नुसार, Odyssey ने system दोन models मध्ये विभागले आहे. एक common game state सतत simulate करते, original game च्या internal state मधून शिकत की खेळाडू हलले आणि कृती केली की world कसे बदलते. दुसरे, diffusion-based model, त्या shared state मधून प्रत्येक खेळाडूसाठी स्वतंत्र visual perspective render करते.
हे विभाजन design चे केंद्र आहे. पारंपरिक video generators स्थिर clips किंवा reactive visuals तयार करतात, पण explicit, persistent simulation ठेवत नाहीत. Agora-1 learned game engine सारखे वागते. simulation layer world मध्ये काय घडत आहे ते ट्रॅक करते; rendering layer त्या world ला वेगवेगळ्या camera positions मधून visuals मध्ये रूपांतरित करते.
state स्पष्टपणे व्यवस्थापित केल्यामुळे Odyssey म्हणते की system mechanics जपून नवीन levels देखील generate करू शकते. याचा अर्थ कंपनी recorded gameplay ला फक्त नव्या रूपात मांडत नाही, तर खेळाच्या अंतर्गत नियमांपैकी किमान काही पकडणारे model तयार करत आहे.
multi-agent consistency कठीण का आहे
source text म्हणते की Multiverse किंवा Solaris सारख्या पूर्वीच्या multi-agent approaches ना, विशेषतः खेळाडू एकमेकांपासून नजरेआड गेले की, अडचणी आल्या. shared world मध्ये consistency failures लगेच दिसून येतात. जर एक खेळाडू दरवाजा उघडतो, गोळी झाडतो किंवा खोलीतून हलतो, तर इतर खेळाडूंना त्यांच्या own positions मधून सुसंगत परिणाम अनुभवता आले पाहिजेत. system drift झाले तर भ्रम तुटतो.
Agora-1 या समस्येचे उत्तर म्हणून मांडले जाते. game state explicit आणि shared ठेवून Odyssey वेगवेगळे renderings एकाच world चे synchronized views राहतील याची खात्री करू इच्छिते, loosely correlated hallucinations नव्हे. प्रत्यक्षात, कंपनी “काय झाले” आणि “प्रत्येक participant काय पाहतो” यातला फरक वेगळा करत आहे, तोच फरक game engines दशकांपासून state replication आणि client rendering द्वारे हाताळत आले आहेत.
नवीनता hard-coded simulation आणि rendering pipelines ऐवजी learned models वापरण्यात आहे.
फक्त game demo पेक्षा अधिक
GoldenEye setting Agora-1 ला लगेच ओळखता येईल असे showcase देते, पण Odyssey ही technology व्यापकपणे सादर करत आहे. कंपनीने Starchild-1 नावाचे संबंधित system आणले आहे, ज्याचे वर्णन interactive audio-video world model असे केले गेले आहे, जे synchronized visuals आणि sound तयार करते आणि चालू text input ला प्रतिसाद देते. Agora-1 च्या विपरीत, Starchild-1 एका वापरकर्त्यावर लक्ष केंद्रित करते, पण speech आणि ambient audio जोडते. source text नुसार, अजून public demo नाही; फक्त sample videos आणि technical paper आहेत.
या दोन घोषणा एकत्र Odyssey passive generation च्या पुढे जाऊन interactive environments कडे वळत असल्याचे दाखवतात. ही दिशा महत्त्वाची आहे, कारण world models चा सर्वात मौल्यवान वापर काही cinema-style content मध्ये नसू शकतो. ते अशा simulated environments मध्ये असू शकतात जिथे agents, robots किंवा humans ना कृती करायची, परिणाम पाहायचे आणि समन्वय साधायचा असतो.
AI training आणि robotics मध्ये संभाव्य उपयोग
Odyssey भविष्यातील वापर म्हणून AI agent training आणि collaborative robotics यांना स्पष्टपणे लक्ष्य करत आहे. तर्क सोपा आहे. जर system अनेक actors सह persistent shared environment simulate करू शकत असेल, तर ते coordination, planning आणि embodied decision-making साठी sandbox बनू शकते.
robotics मध्ये multi-agent consistency ही केवळ शोभेची गोष्ट नाही. एकत्र काम करणाऱ्या robots ना space, objects आणि एकमेकांच्या actions बद्दल सुसंगत beliefs लागतात. बदलत्या viewpoints अंतर्गत ती नाती टिकवणारे learned world model synthetic training सोबतच deployment पूर्वी policies तपासण्यासाठीही उपयुक्त ठरू शकते.
AI agents जे सहकार्य, स्पर्धा किंवा संवाद शिकत आहेत, त्यांच्यावरही हेच लागू होते. single-user sandboxes उपयुक्त असले तरी, अनेक वास्तविक कामांमध्ये एकाच environment चे अनेक actors असतात. Agora-1 हेच अट थेट model करण्याचा प्रारंभिक प्रयत्न आहे.
स्पर्धात्मक परिदृश्यात ते कुठे बसते
source text Agora-1 ची तुलना OpenAI च्या Sora आणि Google च्या Veo 3 सारख्या video generators शी करते, जे persistent simulations ऐवजी clips तयार करतात. broader world-model space मध्ये Google च्या Genie 3 ला अधिक ओळखला जाणारा competitor म्हणूनही नमूद केले आहे. ही तुलना उपयुक्त आहे, कारण ती product category स्पष्ट करते. Agora-1 मुख्यतः अधिक सुंदर video बद्दल नाही. ते shared latent world मधील सतत interaction बद्दल आहे.
ही अधिक कठीण समस्या आहे आणि तिची evaluation criteria वेगळी आहेत. frame quality महत्त्वाची आहे, पण consistency, responsiveness आणि वेळोवेळी world rules ची स्थिरता देखील तितकीच महत्त्वाची आहे.
प्रारंभीचा पण अर्थपूर्ण टप्पा
Agora-1 अजूनही एक demo system आहे, आणि source material उत्पादनासाठी तयार असल्याचा दावा करत नाही. तरीही, हे generative AI मधील महत्त्वपूर्ण बदल सूचित करते. क्षेत्र आता isolated media outputs तयार करण्यापासून अशा environments simulate करण्याकडे जात आहे, जिथे अनेक participants एकाच वेळी राहू आणि कार्य करू शकतात.
हा बदल टिकून राहिला, तर त्याचे महत्त्व nostalgia-आधारित game recreations च्या पलीकडे जाईल. shared world models agents training, interfaces prototyping आणि interactive media च्या नवीन रूपांचा शोध घेण्यासाठी infrastructure बनू शकतात. Odyssey चा GoldenEye experiment एक छोटा showcase आहे, पण तो व्यापक तांत्रिक बदल पकडतो: AI systems आता फक्त scenes नाही, तर continuity, rules आणि एकापेक्षा अधिक point of view असलेले worlds model करायला सुरुवात करत आहेत.
हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on the-decoder.com




