वर्ल्ड अ‍ॅक्शन मॉडेल्स रोबोटांना हालचालीपूर्वी परिणामांचे अनुकरण करण्यास मदत करू शकतात

रोबोटिक्स संशोधक प्रतिक्रियात्मक एआयच्या पुढे जात आहेत

आजच्या रोबोटिक्स प्रणालींमधील एक मूलभूत कमकुवतपणा असा आहे की त्यापैकी अनेक कॅमेरा काय पाहतो त्यापासून मशीनने पुढची कोणती हालचाल करावी याचे थेट नकाशांकन शिकतात. यामुळे उपयुक्त वर्तन तयार होऊ शकते, पण समजुतीत एक पोकळी राहते. रोबोट एखाद्या दिलेल्या प्रतिमेनंतर साधारण कोणती कृती येते हे शिकू शकतो, पण स्वतःची कृती जग कसे बदलते हे शिकत नाही.

दिलेल्या अहवालात अधोरेखित केलेला नवा पुनरावलोकन पेपर असा युक्तिवाद करतो की वर्ल्ड अ‍ॅक्शन मॉडेल्स, म्हणजेच WAMs, ही पोकळी भरून काढण्यासाठी तयार करण्यात आली आहेत. केवळ निरीक्षणांना क्रियांशी जोडण्याऐवजी, ही मॉडेल्स एखादी कृती घेतल्यानंतर वातावरण कसे बदलण्याची शक्यता आहे याचाही अंदाज लावतात. प्रत्यक्षात, त्यामुळे रोबोटांना हालचाल करण्यापूर्वी अल्पकालीन परिणामांचे अनुकरण करण्याचा मार्ग मिळतो.

हे का महत्त्वाचे आहे

याची व्यावहारिक उपयुक्तता लक्षणीय आहे. एखादा रोबोट अंमलबजावणीपूर्वी आपल्या हालचालीचा परिणाम मॉडेल करू शकला, तर तो अपरिचित वस्तू आणि वातावरणांवर अधिक चांगल्या प्रकारे सामान्यीकरण करू शकेल. ही रोबोटिक्समधील मोठी आव्हान आहे, जिथे प्रणाली अनेकदा अरुंद प्रशिक्षण परिस्थितींमध्ये चांगले कार्य करतात आणि नंतर वातावरण बदलले की त्यांची कामगिरी घसरते.

दिलेल्या अहवालात आणखी एका फायद्याकडेही लक्ष वेधले आहे: प्रशिक्षण डेटा. पारंपरिक रोबोटिक्स प्रणाली बहुधा अशा डेटासेट्सवर अवलंबून असतात ज्यामध्ये रोबोटच्या क्रियांना लेबल लावलेले असते, आणि ते तयार करणे महाग आणि मंद असते. वर्ल्ड अ‍ॅक्शन मॉडेल्स लेबल नसलेल्या दैनंदिन व्हिडिओमधून, त्यात पहिल्या व्यक्तीच्या फुटेजचाही समावेश आहे, शिकू शकतात, कारण त्या केवळ आज्ञा शिकत नाहीत. त्या कृती आणि बदलत्या दृश्य जग यांच्यातील संबंध शिकत आहेत.

How we used Gemini to build Google I/O 2026

Google ने सांगितले की Gemini ने I/O 2026 तयार करण्यात कशी मदत केली

Googleचे म्हणणे आहे की टीम्सनी Google I/O 2026 साठी चित्रपट, दृश्ये आणि इव्हेंट घटक तयार करण्यासाठी Gemini आणि इतर AI साधनांचा वापर केला, आणि हा परिषद AI-सहाय्यित निर्मितीचा अंतर्गत नमुना म्हणून मांडला.

Read article

दोन मुख्य डिझाइन शाखा उदयास येत आहेत

पुनरावलोकनानुसार, या मॉडेल वर्गात साधारण शंभर पेपर बसतात, आणि लेखक त्यांना दोन व्यापक आर्किटेक्चरल कुटुंबांमध्ये गटबद्ध करतात. एक प्रवाह प्रथम अंदाजित भविष्यातील व्हिडिओ तयार करतो आणि मग त्या अंदाजातून नियंत्रण आज्ञा काढतो. दुसरा दृश्य इनपुट आणि क्रिया समांतरपणे एकत्र प्रक्रिया करतो.

ही विभागणी महत्त्वाची आहे कारण ती दाखवते की क्षेत्र वेगवेगळ्या प्रयोगांमधून अंतर्गत रचना असलेल्या ओळखण्याजोग्या संशोधन क्षेत्रात परिपक्व होत आहे. 2024 पासून या शाखा कशा विस्तारल्या आहेत याचा हा सर्वेक्षण मागोवा घेतो, ज्यामुळे रोबोटिक्स संशोधकांना अंदाज आणि नियंत्रण एकत्र करण्याचा प्रयत्न करणाऱ्या प्रणालींची तुलना करण्यासाठी एक सामायिक चौकट मिळते.

शुद्ध वर्ल्ड मॉडेल्सपलीकडे

दिलेला लेख एक महत्त्वाचा फरक नमूद करतो. शुद्ध व्हिडिओ जनरेटर संभाव्य भविष्यातील फ्रेम्स तयार करू शकतो, पण तेवढ्याने तो नियंत्रणासाठी उपयुक्त ठरत नाही. वर्ल्ड अ‍ॅक्शन मॉडेल्सनी एकाच वेळी दोन्ही गरजा पूर्ण करणे अपेक्षित आहे: वातावरणाची पुढची अवस्था भाकणे आणि ते भाकीत थेट कृती निर्मितीशी जोडणे.

हे WAMs ला विशेषतः संबंधित बनवते, कारण रोबोटिक्स क्षेत्र प्रभावी डेमोंपासून अधिक विश्वासार्ह embodied प्रणालींकडे जाण्याचा प्रयत्न करत आहे. जवळचा भविष्यकाळ कल्पना करू शकणारा आणि तो मोटर निर्णयांशी जोडू शकणारा रोबोट, केवळ प्रतिक्षेपाने वागण्यापेक्षा दूरदृष्टीने काम करण्याच्या अधिक जवळ आहे.

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAI चे रोबोटिक्स इन्फ्रास्ट्रक्चर काम आणि दीर्घकालीन ग्राहकदृष्टीभोवती पुन्हा उभारले जात आहे

OpenAI ने आपली रोबोटिक्स टीम पुन्हा उभी केली आहे, सुरुवात इन्फ्रास्ट्रक्चर कामांपासून करत, तर CEO Sam Altman सर्वांसाठी वैयक्तिक रोबोट हा दीर्घकालीन उद्देश सांगतात.

Read article

अधिक जुळवून घेणाऱ्या रोबोटांकडे एक पाऊल

वर्ल्ड अ‍ॅक्शन मॉडेल्स अजूनही एक संशोधन चौकट आहेत, अंतिम उत्पादन श्रेणी नाहीत. पण दिलेल्या अहवालात वर्णन केलेला सर्वेक्षण असा सूचित करतो की ते रोबोटिक्स एआयच्या पुढील लाटेसाठी एक महत्त्वाची संघटनात्मक कल्पना ठरू शकतात. ही पद्धत अपेक्षेप्रमाणे काम केली, तर रोबोट कमी ठिसूळ, अतिशय काळजीपूर्वक निवडलेल्या लेबलांवर कमी अवलंबून, आणि कृतीपूर्वी संभाव्य परिणामांवर विचार करून अपरिचित वातावरणे हाताळण्यात अधिक सक्षम होऊ शकतात.

हा लेख The Decoder च्या अहवालावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com

वर्ल्ड अ‍ॅक्शन मॉडेल्सचा उद्देश रोबोटांना परिणामांची अधिक चांगली जाणीव देणे हा आहे

रोबोटिक्स संशोधक प्रतिक्रियात्मक एआयच्या पुढे जात आहेत

हे का महत्त्वाचे आहे

Google ने सांगितले की Gemini ने I/O 2026 तयार करण्यात कशी मदत केली

दोन मुख्य डिझाइन शाखा उदयास येत आहेत

शुद्ध वर्ल्ड मॉडेल्सपलीकडे

OpenAI चे रोबोटिक्स इन्फ्रास्ट्रक्चर काम आणि दीर्घकालीन ग्राहकदृष्टीभोवती पुन्हा उभारले जात आहे

अधिक जुळवून घेणाऱ्या रोबोटांकडे एक पाऊल

Comments (0)

Related Articles

उमेदवारांची चाचणी घेण्यासाठी Anthropic ने मुलाखतींमध्ये AI साधनांवर बंदी घातली

Keep Reading