मेटा आणि शैक्षणिक सहकार्यांनी स्व-सुधारणा करणाऱ्या एआयला आणखी एक पाऊल पुढे नेले
मेटा, युनिव्हर्सिटी ऑफ ब्रिटिश कोलंबिया आणि इतर संस्थांतील संशोधकांचे म्हणणे आहे की त्यांनी “हायपरएजंट्स” नावाची नवी प्रणाली-वर्ग विकसित केला आहे, जो केवळ कामे सोडवण्यातच नव्हे तर स्वतःला सुधारण्यासाठी वापरल्या जाणाऱ्या प्रक्रियेला परिष्कृत करण्यातही सुधारू शकतो. हा दृष्टिकोन टिकून राहिला, तर तो स्व-सुधारणा करणाऱ्या एआयचा अर्थपूर्ण विस्तार ठरेल, विशेषतः ज्या क्षेत्रांत पूर्वीच्या पद्धती चांगल्या चालत होत्या, त्यापलीकडे, विशेषतः प्रोग्रॅमिंगमध्ये.
The Decoder ने दिलेल्या अहवालानुसार, हे काम Darwin Gödel Machine, किंवा DGM, या फ्रेमवर्कवर आधारित आहे. या चौकटीत एक एजंट स्वतःच्या कोडची रूपे तयार करतो, त्यांची चाचणी करतो, आणि यशस्वी आवृत्त्या एका archive मध्ये साठवतो, जे पुढील परिष्कारासाठी मदत करू शकते. त्या आधीच्या सेटअपची मुख्य मर्यादा अशी होती की, स्रोत मजकुरानुसार, सुधारणा निर्देशित करणारी यंत्रणा मानवी पातळीवर स्थिर ठेवलेली होती. एजंट त्या चौकटीत सुधारू शकत होता, पण चौकट स्वतः बदलू शकत नव्हता.
हायपरएजंट वेगळा कशामुळे आहे
सुचवलेला उपाय म्हणजे दोन कार्ये एका संपादनयोग्य प्रोग्राममध्ये एकत्र करणे. एक घटक सध्याचे काम हाताळतो, जसे एखाद्या वैज्ञानिक पेपरचे मूल्यांकन करणे किंवा रोबोटसाठी reward function डिझाइन करणे. दुसरा घटक एजंटमध्ये बदल करतो आणि नवीन रूपे तयार करतो. दोन्ही घटक एकाच codebase मध्ये असल्यामुळे, तत्त्वतः ही प्रणाली आपल्या task-solving वर्तनासोबतच आपले improvement logic देखील पुन्हा लिहू शकते.
हायपरएजंट या कल्पनेमागील हीच मध्यवर्ती भूमिका आहे. स्थिर, मानवलेखित shell मध्ये फक्त सुधारण्याऐवजी, एजंट तो shell देखील अनुकूलित करू शकतो. स्रोत अहवालाच्या भाषेत, तो कामांमध्ये आणि “पहिल्यांदा कसे सुधारायचे हे शोधण्यात” दोन्हीमध्ये चांगला होतो.
हे महत्त्वाचे आहे कारण स्व-सुधारणा दीर्घकाळ एका मर्यादेला भिडत आली आहे. एखादी प्रणाली एका क्षेत्रात अत्यंत सक्षम असू शकते, तरीही ती हाताने बांधलेल्या यंत्रणांवर अवलंबून राहते ज्या स्वतः विकसित होत नाहीत. हायपरएजंट्स हा अडथळा दूर करण्याचा प्रयत्न आहेत, मेटा-स्तरही संपादनयोग्य बनवून.
पूर्वीची स्व-सुधारणा का चांगली सर्वसाधारण झाली नाही
दिलेल्या source text नुसार, मूळ Darwin Gödel Machine ने coding tasks मध्ये आशादायक परिणाम दाखवले, कारण चांगला programmer असणे आणि चांगले self-modifications लिहिणे यांच्यात नैसर्गिक संबंध आहे. coding मध्ये, एजंटचे task skill आणि स्वतःची अंमलबजावणी बदलण्याचे skill घट्ट जोडलेले असते.
coding च्या बाहेर हे नाते कमकुवत होते. वैज्ञानिक पेपर्सचे मूल्यमापन करण्यात चांगला झालेला एजंट आपोआप स्वतःचा code पुन्हा लिहिण्यात चांगला होत नाही. संशोधकांचा युक्तिवाद आहे की हाच कारण आहे की मूळ DGM ने प्रोग्रॅमिंगच्या बाहेर manual adjustment शिवाय खराब कामगिरी केली. अहवालानुसार, मानवी हस्तक्षेप नसल्यास त्या प्रणालीने non-programming tasks मध्ये जवळपास शून्य performance साध्य केले.
हायपरएजंट्स त्या failure mode ला संबोधित करण्यासाठी आहेत. सुधारणा यंत्रणेलाच अनुकूलित करण्याची परवानगी देऊन, संशोधक DGM ची archive-based evolutionary रचना कायम ठेवू इच्छितात, आणि meta-agent ला कायमस्वरूपी स्थिर राहण्यापासून मुक्त करतात.
नवी प्रणाली: DGM-H
टीम या नव्या दृष्टिकोनाला DGM-Hyperagents, किंवा DGM-H, असे म्हणते. archive ही पद्धतीचा मुख्य भाग राहते. प्रणाली रूपे तयार करते, त्यांचे मूल्यांकन करते, आणि यशस्वी आवृत्त्या भविष्यातील बदलांसाठी पायरी म्हणून वापरते. बदलतो तो “meta” घटक आता लॉक नाही. एजंटच्या चांगल्या आवृत्त्या तयार करण्याची प्रक्रिया त्याच चक्राचा भाग म्हणून सुधारता येईल अशा प्रकारे आर्किटेक्चर तयार केले आहे.
हा एक लक्षणीय संकल्पनात्मक बदल आहे. अनेक एआय प्रणालींमध्ये स्व-सुधारणा object-level task solver आणि meta-level controller किंवा training logic यांच्यातील कठोर विभाजनामुळे मर्यादित राहते. DGM-H ते विभाजन कमी करते, दोन्हीही संपादनयोग्य code मध्ये ठेवून. परिणामी, किमान तत्त्वतः, task competence शी आधीपासूनच जुळलेली नसलेल्या अपरिचित क्षेत्रांशी जुळवून घेण्याची अधिक शक्यता असलेली प्रणाली मिळते.
चार कार्यक्षेत्रांतील नोंदवलेले निष्कर्ष
candidate text म्हणते की संशोधकांनी DGM-H चार कार्यक्षेत्रांमध्ये तपासले आणि मोठी gains नोंदवली. या उताऱ्यात संपूर्ण संख्यात्मक निकाल दिलेले नाहीत, त्यामुळे त्यांना अतिशयोक्तीने मांडू नये. एवढे म्हणता येईल की, व्यापक उपयुक्ततेच्या दृष्टीने संशोधन पथक ही प्रणाली मूळ सेटअपपेक्षा लक्षणीयरीत्या मजबूत म्हणून मांडते.
हा दावा महत्त्वाचा आहे कारण generality हे स्व-सुधारणा करणाऱ्या एआयमधील सर्वात कठीण उद्दिष्टांपैकी एक आहे. अनेक प्रणाली अरुंद परिस्थितींमध्ये चांगली कामगिरी करतात, पण वातावरण बदलले की तुटून पडणाऱ्या hand-crafted assumptions वर अवलंबून असतात. हायपरएजंट्स जर वेगवेगळ्या task type मध्ये अर्थपूर्ण सुधारणा करू शकले, तर ते अधिक लवचिक autonomous systems कडे प्रगती दर्शवतील.
त्याच वेळी, दिलेले साहित्य याला उत्पादनक्षम क्षमता न म्हणता संशोधन म्हणून वर्णन करते. त्यामुळे हे प्रयोगात्मक पाऊल म्हणून समजले पाहिजे, व्यापकपणे self-accelerating एआय आधीच मोठ्या प्रमाणावर कार्यरत आहे याचा पुरावा म्हणून नाही.
हे संशोधन का महत्त्वाचे आहे
हायपरएजंट्सचे व्यापक महत्त्व ते frontier कुठे पुढे नेतात यामध्ये आहे. एआय संशोधकांनी कार्यक्षमता सुधारण्यासाठी शोध घेणाऱ्या, अनुकूलित करणाऱ्या, किंवा कोड लिहिणाऱ्या प्रणालींवर दीर्घकाळ काम केले आहे. बदलाची तर्कशृंखला स्वतःच दुरुस्त करू शकणाऱ्या, आणि तेही निष्प्रभ बदलांमध्ये कोसळू न देता, अशा प्रणाली बांधणे ही अधिक कठीण समस्या आहे. DGM-H ही पुनरावर्ती लूप अधिक सक्षम आणि व्यापकपणे उपयुक्त करण्याचा प्रयत्न म्हणून मांडली गेली आहे.
हा दृष्टिकोन मजबूत सिद्ध झाला, तर task skill आणि self-modification skill नैसर्गिकरित्या जुळत नसलेल्या क्षेत्रांत तो महत्त्वाचा ठरू शकतो. scientific analysis, robotics, आणि इतर complex areas हे स्रोत मजकुरात नमूद केलेले उदाहरण आहेत. अशा ठिकाणी, प्रणालीचे मूल्य केवळ ती कृती करते म्हणून नसून, ती कशी शिकते आणि कशी जुळवून घेते याचा पुनर्रचना करण्याच्या क्षमतेवरही अवलंबून राहू शकते.
याच शक्यतेमुळे हे काम तांत्रिक तपशीलांपलीकडेही लक्ष वेधून घेते. स्वतःचा optimizer optimize करू शकणारी प्रणाली, एआय capability growth, safety, evaluation, आणि control यांसारख्या मूलभूत प्रश्नांना स्पर्श करते. दिलेला अहवाल performance gains वर भर देतो, पण तीच architecture कल्पना oversight आणि alignment बद्दल चिंतित संशोधकांकडूनही scrutiny आकर्षित करेल.
एक क्रमिक पण उल्लेखनीय पाऊल
उपलब्ध सामग्रीच्या आधारे, सर्वात सुरक्षित निष्कर्ष असा की मेटा आणि त्यांचे सहकारी स्व-सुधारणेचे अधिक लवचिक मॉडेल पुढे नेत आहेत, runaway recursive intelligence चा सोपा मार्ग दाखवत नाहीत. हे संशोधन आधीच्या self-modification approaches मधील एका विशिष्ट कमकुवततेला संबोधित करते आणि अनेक कार्यक्षेत्रांमध्ये प्रगतीचा दावा करते.
हीच गोष्ट त्याला उल्लेखनीय बनवते. स्व-सुधारणा करणाऱ्या एआयबद्दल अनेकदा सैद्धांतिक किंवा अंदाजात्मक भाषेत चर्चा केली जाते. हायपरएजंट्स ती चर्चा अधिक ठोस तांत्रिक रूपात आणतात: संपादनयोग्य meta-mechanisms, archive-based iteration, आणि software engineering च्या पलीकडे विस्तारण्याचा स्पष्ट प्रयत्न. ही पद्धत मूलभूत ठरेल की उपयुक्त प्रयोग राहील, हे येथे दिलेल्या सारांशापलीकडील निकालांवर अवलंबून असेल. पण संशोधनाच्या दृष्टीने, हे एआयमधील सर्वात महत्त्वाच्या प्रश्नांपैकी एकाकडे स्पष्टपणे लक्ष करते: प्रणाली सुधारू शकतात का एवढेच नव्हे, तर त्या सुधारण्याची प्रक्रिया स्वतः सुधारू शकतात का.
हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on the-decoder.com



