தொடர்ச்சியாக மேம்படும் AI ஏஜென்ட்களை நோக்கிய ஒரு தள்ளுதல்

இன்று பெரும்பாலான AI ஏஜென்ட்கள் பயிற்சியளிக்கப்பட்டு, வெளியிடப்பட்டு, பின்னர் பெரும்பாலும் நிலைத்த நிலையில் வைக்கப்படுகின்றன. அவை prompt updates அல்லது model upgrades பெறலாம், ஆனால் பயனர்களுக்கு சேவை வழங்கும் போதே தொடர்ச்சியான முறையில் தங்களைச் சீரமைத்துக்கொள்வது பொதுவாக இல்லை. MetaClaw அந்த மாதிரியை மாற்றும் ஒரு முயற்சி.

University of North Carolina at Chapel Hill, Carnegie Mellon University, University of California, Santa Cruz, மற்றும் University of California, Berkeley ஆகியவற்றைச் சேர்ந்த ஆராய்ச்சியாளர்கள், செயல்பாட்டின் போதே AI ஏஜென்ட்கள் மேம்படக்கூடிய ஒரு கட்டமைப்பை உருவாக்கியுள்ளனர். இந்த அமைப்பு தோல்விகளை கண்காணிக்கிறது, அந்தத் தோல்விகளிலிருந்து புதிய நடத்தை விதிகளை உருவாக்குகிறது, மேலும் பயனர் செயலற்றிருக்கும் காலங்களில் model training-ஐ திட்டமிடுகிறது.

வழங்கப்பட்ட மூல உரைப்படி, அந்த முடிவு ஒரு பலவீனமான language model-ஐ சோதனையில் மிக வலுவான model-இன் செயல்திறன் நிலைக்கு அருகே கொண்டு செல்லக்கூடிய ஒரு கட்டமைப்பு ஆகும். இத்தகைய பலன் கட்டுப்படுத்தப்பட்ட மதிப்பீடுகளுக்கு வெளியிலும் நீடித்தால், பெரிய models-ஐ வெறுமனே வாங்குவதிலிருந்து, வெளியீட்டிற்குப் பிறகு சிறப்பாக கற்றுக்கொள்ளும் ஏஜென்ட்களை உருவாக்குவதற்கான கவனம் மாறக்கூடும்.

MetaClaw எப்படி வேலை செய்கிறது

MetaClaw-க்கு இரண்டு முக்கிய mechanism-கள் உள்ளன. முதல் mechanism, ஒரு agent ஒரு task-இல் தோல்வியடையும் போது செயல்படும். ஒரு தனி language model அந்தத் தோல்வியடைந்த interaction-ஐ மதிப்பாய்வு செய்து, ஒரு சுருக்கமான நடத்தை விதியை உருவாக்குகிறது. பின்னர் அந்த விதி agent-இன் system prompt-இல் சேர்க்கப்படுகிறது, இதனால் அந்த மாற்றம் எதிர்கால tasks-இல் உடனடியாக செயல்படும்.

இது முக்கியம், ஏனெனில் முழு retraining cycle-ஐ காத்திருக்க வேண்டியதில்லை. குறிப்பிட்ட தவறுகளிலிருந்து agent கற்றுக்கொண்டபடியே service தொடர்ந்து இயங்கலாம். மூல உரையில் உள்ள paper summary-க்கு 따르면, பொதுவான rule வகைகளில் time formats-ஐ சரியாக normalize செய்வது, destructive file operations-க்கு முன் backups உருவாக்குவது, மற்றும் naming conventions-ஐ பின்பற்றுவது அடங்கும்.

அந்த எடுத்துக்காட்டுகள் எளிமையானவை, ஆனால் அவை ஒரு நடைமுறை யோசனையை காட்டுகின்றன: சிறிய operational failures பல workflows-இல் மீண்டும் மீண்டும் நிகழ்கின்றன. ஒரு agent ஒரு தவறிலிருந்து மீள்பயன்படுத்தக்கூடிய விதியை எடுத்துக்கொள்ள முடிந்தால், பெரிய architecture மாற்றம் தேவையில்லாமல் பிற tasks-இலும் செயல்திறனை மேம்படுத்த முடியும்.

இடைவெளி நேரத்தில் பயிற்சி

இரண்டாவது mechanism இன்னும் அதிகமான ambition கொண்டது. MetaClaw cloud-based LoRA fine-tuning-ஐ பயன்படுத்தி reinforcement learning மூலம் model weights-ஐ புதுப்பிக்கிறது. அந்த process agent-ஐ சுருக்கமாகத் தடை செய்வதால், குறைந்த பாதிப்புள்ள training windows-ஐ கண்டறிய ஆராய்ச்சியாளர்கள் ஒரு scheduler-ஐ உருவாக்கினர்.

அந்த background process OMLS, அதாவது Opportunistic Meta-Learning Scheduler என்று அழைக்கப்படுகிறது. இது configurable sleep times, keyboard மற்றும் mouse activity, மேலும் பயனரின் Google Calendar-ஐப் பார்த்து, அந்த நபர் system-ஐ செயலில் பயன்படுத்துவதற்கான வாய்ப்பு குறைவாக இருக்கும் நேரத்தை கணிக்கிறது. பின்னர் அந்த windows-ஐ model updates-க்கு பயன்படுத்துகிறது.

இந்த scheduling யோசனை திட்டத்தின் மிகக் குறிப்பிடத்தக்க அம்சங்களில் ஒன்றாகும், ஏனெனில் அது personalization-ஐ ஒரு modeling problem மட்டுமல்ல, ஒரு operational problem-ஆகவும் பார்க்கிறது. சவால் என்பது agent-ஐ மேம்படுத்துவது மட்டும் அல்ல, பயனரின் வழியைத் தடை செய்யாமல் எப்போது அதனைச் செய்வது என்பதும் ஆகும்.

அந்த அர்த்தத்தில், MetaClaw AI engineering-இல் ஒரு பரந்த மாற்றத்தை பிரதிபலிக்கிறது. models commodity-களாக மாறும்போது, product performance அதன் சுற்றியுள்ள system-இல் அதிகமாக சார்ந்திருக்கலாம்: error analysis, memory, scheduling, recovery behavior, மற்றும் safe adaptation.

Agent வடிவமைப்பிற்கு இது ஏன் முக்கியம்

பல தற்போதைய AI ஏஜென்ட்கள் கணிக்கக்கூடிய முறைகளில் தோல்வியடைகின்றன. அவை file operations-ஐ தவறாக கையாள்கின்றன, formatting requirements-ஐ தவறவிடுகின்றன, அல்லது அதே task-specific mistakes-ஐ மீண்டும் செய்கின்றன. வழக்கமான பதில் ஒரு வலுவான base model-ஐ பயன்படுத்துவது, அதிக context சேர்ப்பது, அல்லது சிறந்த prompts எழுதுவது ஆகியவையாகும். MetaClaw இன்னொரு பாதையை முன்வைக்கிறது: deployed agents-ஐ தங்களின் work history-யிலிருந்து கற்றுக்கொள்ள வேண்டிய systems-ஆகக் கருத வேண்டும்.

இது வெற்றியடைந்தால், சிறிய அல்லது குறைந்த செலவிலான models-ஐ அதிக போட்டித்தன்மை கொண்டவையாக மாற்றலாம். source text-இல் MetaClaw, சோதனையில் ஒரு பலவீனமான model-ஐ மிகவும் வலுவான model-இன் நிலைக்கு அருகே உயர்த்தியதாக கூறுகிறது. இங்கு சரியான benchmark விவரங்கள் இல்லாவிட்டாலும், அந்தக் கூற்று மூலதன ரீதியாக முக்கியமானது. வெளியீட்டிற்குப் பிறகான learning infrastructure, சில raw model capability-க்கு மாற்றாக அமையலாம் என்பதைக் காட்டுகிறது.

இது inference செலவுகளை கட்டுப்படுத்த விரும்பும் நிறுவனங்களுக்கு ஈர்ப்பாக இருக்கும். தொடர்ந்து ஒரு frontier model-க்கு பணம் செலுத்துவதற்குப் பதிலாக, ஒரு நிறுவனம் காலப்போக்கில் திறமையாக தழுவிக் கொள்ளக்கூடிய ஒரு பலவீனமான base model-ஐ ஏற்றுக்கொள்ளலாம்.

உராய்வு புள்ளிகள்

MetaClaw தெளிவான கேள்விகளையும் எழுப்புகிறது. Google Calendar events, keyboard activity, mouse activity, மற்றும் sleep schedules-ஐ கண்காணிப்பது அமைப்புக்கு பயனுள்ள signals-ஐ வழங்குகிறது, ஆனால் அது பயனரின் digital life-இன் நுணுக்கமான பகுதிகளையும் தொடுகிறது. வழங்கப்பட்ட source text இவற்றை scheduling inputs-ஆக முன்வைக்கிறது, surveillance features-ஆக அல்ல; ஆனால் உண்மையான deployment-இல் அந்த இரண்டிற்கும் இடையிலான எல்லை முக்கியமானதாக இருக்கும்.

self-reinforcement என்ற ஆபத்தும் உள்ளது. ஒரு agent தவறான விளக்கத்தை ஒரு நடத்தை விதியாக மாற்றினால், அது ஒரு தவறைத் திருத்துவதற்குப் பதிலாக ஒரு மோசமான பழக்கத்தை உறுதியாக்கலாம். source text, failures-இலிருந்து விதிகளை distill செய்யும் ஒரு separate model-ஐ விவரிக்கிறது, ஆனால் அந்த விதிகள் எவ்வாறு audit செய்யப்படுகின்றன, rank செய்யப்படுகின்றன, அல்லது திரும்பப் பெறப்படுகின்றன என்பதை விவரிக்கவில்லை.

எனவே operational learning systems-க்கு rule quality, rollback, மற்றும் safety சுற்றியுள்ள வலுவான controls தேவை. குறிப்பாக file modification அல்லது account changes போன்ற destructive actions-ஐ அவை கையாளும் போது இது மேலும் முக்கியம்.

AI முன்னேற்றத்தின் வேறொரு பார்வை

MetaClaw தனித்துப் தோன்றுகிறது, ஏனெனில் அது intelligence-ஐ ஆய்வகத்தில் மட்டும் அல்ல, பயன்பாட்டின் போதும் தொடர்ந்து மேம்படும் ஒன்றாக வரையறுக்கிறது. இந்த யோசனை பாரம்பரிய software மற்றும் recommendation systems-இல் பொதுவாக உள்ளது, ஆனால் consumer-facing language-model agents-க்கு இது இன்னும் standard அல்ல.

இந்த framework, ஏஜென்ட்கள் மேலும் individualized ஆகும் ஒரு எதிர்காலத்தையும் சுட்டிக்காட்டுகிறது. ஒரு பயனரின் workflows, naming preferences, time formatting rules, மற்றும் risk tolerance ஆகியவற்றிலிருந்து கற்றுக்கொள்ளும் ஒரு system, operational mistakes பற்றிய memory இல்லாத ஒரு வலுவான base model கொண்ட generic assistant-ஐ விட காலப்போக்கில் அதிக பயனுள்ளதாக மாறலாம்.

இந்த குறிப்பிட்ட framework பரவலாக ஏற்றுக்கொள்ளப்படுமா என்பது, அது பிரதிநிதித்துவப்படுத்தும் திசையைவிட குறைவாக முக்கியம். AI ஏஜென்ட்கள் நிலையான interfaces-இலிருந்து, scheduling, learning loops, மற்றும் behavioral governance தேவைப்படும் maintained systems-ஆக மாறிக்கொண்டிருக்கின்றன. MetaClaw அந்த மாற்றத்திற்கான ஒரு ஆரம்ப blueprint-ஐ வழங்குகிறது.

இதன் முக்கியத்துவம்

  • இது agent improvement-ஐ ஒருமுறை model release-ஆக அல்ல, தொடர்ந்து நடைபெறும் operational process-ஆக மறுவடிவமைக்கிறது.
  • வெளியீட்டிற்குப் பிறகு திறமையாக கற்றுக்கொள்ள முடிந்தால், குறைந்த செலவிலான models மேலும் போட்டித்தன்மை பெறலாம் என்பதை இது சுட்டுகிறது.
  • personal activity signals-ஐ பயன்படுத்தி எப்போது மற்றும் எப்படி retrain செய்வது என்பதை agents தீர்மானிக்கத் தொடங்கும்போது, புதிய privacy மற்றும் governance கேள்விகளை இது எழுப்புகிறது.

இந்தக் கட்டுரை The Decoder வழங்கிய செய்திப்பதிப்பை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.