MetaClaw फ्रेमवर्क एआई एजेंट्स को निष्क्रिय समय के दौरान सीखने देता है

निरंतर सुधार करने वाले एआई एजेंट्स की ओर एक कदम

आज के अधिकांश एआई एजेंट्स को प्रशिक्षित किया जाता है, तैनात किया जाता है, और फिर काफी हद तक स्थिर छोड़ दिया जाता है। उन्हें प्रॉम्प्ट अपडेट या मॉडल अपग्रेड मिल सकते हैं, लेकिन वे आम तौर पर उपयोगकर्ताओं की सेवा करते हुए लगातार अपने-आप अनुकूलित नहीं होते। MetaClaw इस मॉडल को बदलने का एक प्रयास है।

यूनिवर्सिटी ऑफ नॉर्थ कैरोलाइना एट चैपल हिल, कार्नेगी मेलन यूनिवर्सिटी, यूनिवर्सिटी ऑफ कैलिफ़ोर्निया, सैंटा क्रूज़, और यूनिवर्सिटी ऑफ कैलिफ़ोर्निया, बर्कले के शोधकर्ताओं ने एक ऐसा फ्रेमवर्क बनाया है जो एआई एजेंट्स को संचालन के दौरान बेहतर होने देता है। यह सिस्टम विफलताओं पर नज़र रखता है, उन विफलताओं से नए व्यवहारिक नियम निकालता है, और जब उपयोगकर्ता निष्क्रिय होता है तब मॉडल प्रशिक्षण का समय निर्धारित करता है।

स्रोत पाठ के अनुसार, इसका परिणाम एक ऐसा फ्रेमवर्क है जो परीक्षण में एक कमजोर भाषा मॉडल को लगभग एक काफी मजबूत मॉडल के प्रदर्शन स्तर तक पहुँचा सकता है। यदि इस तरह का लाभ नियंत्रित मूल्यांकन के बाहर भी बना रहता है, तो यह ध्यान को केवल बड़े मॉडल खरीदने से हटाकर ऐसे एजेंट्स बनाने की ओर मोड़ सकता है जो तैनाती के बाद बेहतर तरीके से सीखते हैं।

MetaClaw कैसे काम करता है

MetaClaw के दो मुख्य तंत्र हैं। पहला तब सक्रिय होता है जब कोई एजेंट किसी कार्य में विफल होता है। एक अलग भाषा मॉडल विफल इंटरैक्शन की समीक्षा करता है और एक संक्षिप्त व्यवहारिक नियम तैयार करता है। फिर उस नियम को एजेंट के सिस्टम प्रॉम्प्ट में जोड़ा जाता है, ताकि परिवर्तन भविष्य के कार्यों पर तुरंत प्रभाव डाल सके।

यह इसलिए महत्वपूर्ण है क्योंकि इससे पूर्ण पुनः-प्रशिक्षण चक्र की प्रतीक्षा नहीं करनी पड़ती। सेवा चलती रह सकती है जबकि एजेंट विशिष्ट गलतियों से सीखता रहता है। स्रोत पाठ में दिए गए पेपर सारांश के अनुसार, सामान्य नियम प्रकारों में समय प्रारूपों का सही सामान्यीकरण, विनाशकारी फ़ाइल कार्रवाइयों से पहले बैकअप बनाना, और नामकरण परंपराओं का पालन करना शामिल था।

ये उदाहरण मामूली लग सकते हैं, लेकिन वे एक व्यावहारिक विचार की ओर इशारा करते हैं: छोटे संचालनगत असफलताएँ अक्सर कई वर्कफ़्लोज़ में दोहराई जाती हैं। यदि कोई एजेंट एक गलती से पुन: उपयोग योग्य नियम निकाल सकता है, तो वह बड़े आर्किटेक्चरल बदलाव के बिना भी अन्य कार्यों में प्रदर्शन सुधार सकता है।

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAI ने इन्फ्रास्ट्रक्चर काम और लंबे उपभोक्ता विजन के इर्द-गिर्द रोबोटिक्स को फिर से खड़ा किया है

OpenAI ने अपनी रोबोटिक्स टीम को फिर से बनाया है, शुरुआत इन्फ्रास्ट्रक्चर कार्यों से करते हुए, जबकि CEO Sam Altman एक लंबे समय के लक्ष्य के रूप में सभी के लिए निजी रोबोटों की बात कर रहे हैं।

Read article

निष्क्रिय समय में प्रशिक्षण

दूसरा तंत्र अधिक महत्वाकांक्षी है। MetaClaw cloud-based LoRA fine-tuning का उपयोग करके reinforcement learning के माध्यम से मॉडल वेट्स को अपडेट करता है। क्योंकि यह प्रक्रिया एजेंट को थोड़े समय के लिए बाधित करती है, शोधकर्ताओं ने कम-प्रभाव वाले प्रशिक्षण विंडो खोजने के लिए एक scheduler बनाया।

उस बैकग्राउंड प्रक्रिया को OMLS, या Opportunistic Meta-Learning Scheduler कहा जाता है। यह कॉन्फ़िगर किए गए sleep times, keyboard और mouse गतिविधि, और उपयोगकर्ता के Google Calendar पर नज़र रखता है ताकि यह अनुमान लगा सके कि व्यक्ति के सिस्टम का सक्रिय रूप से उपयोग करने की संभावना कब कम है। फिर फ्रेमवर्क उन विंडोज़ का उपयोग model updates के लिए करता है।

यह scheduling विचार परियोजना की सबसे उल्लेखनीय विशेषताओं में से एक है क्योंकि यह personalization को केवल एक modeling समस्या नहीं, बल्कि एक operational समस्या के रूप में देखता है। चुनौती केवल यह नहीं है कि agent को कैसे बेहतर बनाया जाए, बल्कि यह भी है कि उपयोगकर्ता के रास्ते में आए बिना यह कब किया जाए।

उस अर्थ में, MetaClaw AI engineering में एक व्यापक बदलाव को दर्शाता है। जैसे-जैसे models commodities बनते जाते हैं, product performance अधिकतर आस-पास के system पर निर्भर हो सकती है: error analysis, memory, scheduling, recovery behavior, और safe adaptation।

Agent Design के लिए यह क्यों महत्वपूर्ण है

आज के कई एआई एजेंट्स पूर्वानुमेय तरीकों से विफल होते हैं। वे file operations को गलत संभालते हैं, formatting requirements का ट्रैक खो देते हैं, या task-specific वही गलतियाँ दोहराते रहते हैं। मानक उत्तर रहा है एक अधिक मजबूत base model का उपयोग करना, अधिक context जोड़ना, या बेहतर prompts लिखना। MetaClaw एक और रास्ता सुझाता है: तैनात एजेंट्स को ऐसे systems मानना चाहिए जिन्हें अपने काम के इतिहास से सीखना चाहिए।

यदि यह सफल होता है, तो यह छोटे या सस्ते models को अधिक प्रतिस्पर्धी बना सकता है। स्रोत पाठ कहता है कि MetaClaw ने परीक्षण में एक कमजोर मॉडल को लगभग एक काफी मजबूत मॉडल के स्तर तक पहुँचा दिया। exact benchmark विवरण के बिना भी, यह दावा रणनीतिक रूप से महत्वपूर्ण है। इसका अर्थ है कि post-deployment learning infrastructure कुछ raw model capability का विकल्प बन सकता है।

यह उन व्यवसायों के लिए आकर्षक होगा जो inference costs नियंत्रित करना चाहते हैं। लगातार एक frontier model के लिए भुगतान करने के बजाय, कोई कंपनी एक कमजोर base model स्वीकार कर सकती है यदि वह समय के साथ प्रभावी ढंग से अनुकूलित हो सके।

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

Anthropic के एक अध्ययन में सामाजिक विज्ञान में कोडिंग-एजेंट अपनाने में बड़े अंतर पाए गए, जो लिंग, क्षेत्र, करियर चरण और विश्वविद्यालय रैंक के आधार पर बदलते हैं।

Read article

घर्षण के बिंदु

MetaClaw स्पष्ट सवाल भी उठाता है। Google Calendar events, keyboard activity, mouse activity, और sleep schedules पर नज़र रखना सिस्टम को उपयोगी संकेत देता है, लेकिन यह उपयोगकर्ता के डिजिटल जीवन के संवेदनशील हिस्सों को भी छूता है। प्रस्तुत स्रोत पाठ इन्हें scheduling inputs के रूप में पेश करता है, surveillance features के रूप में नहीं, लेकिन वास्तविक deployment में इन दोनों के बीच की रेखा महत्वपूर्ण होगी।

स्व-प्रबलन का जोखिम भी है। यदि कोई agent गलत व्याख्या को एक व्यवहारिक नियम में बदल देता है, तो वह उसे ठीक करने के बजाय एक खराब आदत को मजबूत कर सकता है। स्रोत पाठ विफलताओं से नियम निकालने वाले एक अलग model का वर्णन करता है, लेकिन यह विस्तार से नहीं बताता कि उन नियमों का audit, ranking, या reversal कैसे होता है।

इसलिए operational learning systems को नियम गुणवत्ता, rollback, और safety के चारों ओर मजबूत नियंत्रणों की आवश्यकता होती है। यह विशेष रूप से तब सच है जब वे file modification या account changes जैसी विनाशकारी कार्रवाइयाँ संभालते हों।

एआई प्रगति की एक अलग दृष्टि

MetaClaw इसलिए अलग दिखता है क्योंकि यह बुद्धिमत्ता को ऐसी चीज़ के रूप में प्रस्तुत करता है जो प्रयोग के दौरान भी सुधार जारी रख सकती है, केवल लैब में नहीं। यह विचार पारंपरिक software और recommendation systems में आम रहा है, लेकिन consumer-facing language-model agents के लिए अभी भी मानक नहीं है।

यह framework एक ऐसे भविष्य की भी ओर संकेत करता है जिसमें agents अधिक व्यक्तिगत बनते जाते हैं। एक ऐसा सिस्टम जो किसी एक उपयोगकर्ता के workflows, naming preferences, time formatting rules, और risk tolerance से सीखता है, धीरे-धीरे एक generic assistant से अधिक उपयोगी बन सकता है, भले ही उसके base model से मजबूत कोई और assistant हो, लेकिन उसके पास operational mistakes की स्मृति न हो।

यह विशेष framework व्यापक रूप से अपनाया जाएगा या नहीं, यह उससे कम महत्वपूर्ण है जो दिशा यह दर्शाता है। एआई एजेंट्स स्थिर interfaces से हटकर maintained systems की ओर बढ़ रहे हैं जिन्हें scheduling, learning loops, और behavioral governance की आवश्यकता होती है। MetaClaw इस परिवर्तन के लिए एक प्रारंभिक blueprint प्रस्तुत करता है।

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic उम्मीदवारों की परीक्षा के लिए इंटरव्यू में AI टूल्स पर रोक लगाता है

रिपोर्टों के अनुसार, Anthropic लाइव जॉब इंटरव्यू में AI सहायता पर प्रतिबंध लगाता है, जब तक कि स्पष्ट रूप से अनुमति न दी गई हो, क्योंकि कंपनी यह आकलन करना चाहती है कि उम्मीदवार अपने दम पर कैसे तर्क करते हैं।

Read article

यह क्यों मायने रखता है

यह एजेंट सुधार को एक बार के model release के बजाय एक सतत operational प्रक्रिया के रूप में पुनर्परिभाषित करता है।
यह सुझाव देता है कि यदि वे तैनाती के बाद प्रभावी ढंग से सीख सकें, तो सस्ते model अधिक प्रतिस्पर्धी बन सकते हैं।
यह नई privacy और governance संबंधी प्रश्न सामने लाता है, क्योंकि agent यह तय करने के लिए व्यक्तिगत गतिविधि संकेतों का उपयोग करना शुरू करते हैं कि कब और कैसे retrain करना है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com

MetaClaw उन एआई एजेंट्स को बनाने की कोशिश करता है जो उपयोगकर्ताओं के दूर होने पर सीखते रहते हैं

निरंतर सुधार करने वाले एआई एजेंट्स की ओर एक कदम

MetaClaw कैसे काम करता है

OpenAI ने इन्फ्रास्ट्रक्चर काम और लंबे उपभोक्ता विजन के इर्द-गिर्द रोबोटिक्स को फिर से खड़ा किया है

निष्क्रिय समय में प्रशिक्षण

Agent Design के लिए यह क्यों महत्वपूर्ण है

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

घर्षण के बिंदु

एआई प्रगति की एक अलग दृष्टि

Anthropic उम्मीदवारों की परीक्षा के लिए इंटरव्यू में AI टूल्स पर रोक लगाता है

यह क्यों मायने रखता है

Comments (0)

Related Articles

AI मॉडल ने रेसिपी की तर्क-प्रणाली को स्वाद-रसायन से अलग किया

MISUMI ने $1 अरब के AI निर्माण दांव के साथ Americas अभियान शुरू किया

Microsoft और Nvidia कथित तौर पर AI PCs को स्थानीय एजेंटों की ओर धकेल रहे हैं

Keep Reading