On-device control-ஐ மையமாகக் கொண்ட Android agent
Oppo X-OmniClaw என்ற புதிய Android agent-ஐ open-source ஆக்கியுள்ளது, மேலும் இந்த release-இன் மிக முக்கியமான பகுதி software என்ன செய்ய முடியும் என்பதல்ல, அது அதை எங்கே செய்கிறது என்பதுதான். source material-ன் படி, இந்த system cloud-hosted virtual phone-க்குள் அல்லாமல் நேரடியாக physical Android device-இல் இயங்குகிறது. இந்த design agent-க்கு handset-இன் camera, screen, voice, மற்றும் local data-ஐப் பயன்படுத்த அனுமதிக்கிறது, மேலும் user-ன் device-ஐ remote data center-இல் mirror செய்ய வேண்டிய தேவையைத் தவிர்க்கிறது.
இந்த வேறுபாடு project-ன் pitch-க்கு மையமாகும். Cloud-phone systems Android instances-ஐ தொலைநிலையிலிருந்து இயக்கி, agent-ஐ அங்கே செயல்பட அனுமதிக்கலாம்; ஆனால் local sensors, private files, மற்றும் user-ஐச் சுற்றியுள்ள உண்மையான physical context-ஐ அணுகுவதில் அவற்றுக்கு வரம்புகள் உள்ளன. source text-ல் விவரிக்கப்பட்டபடி, X-OmniClaw இதற்கு எதிர் அணுகுமுறையை எடுத்துக்கொள்கிறது: perception, control, மற்றும் app interaction handset-இல் தங்குகின்றன, cloud language model மட்டும் உயர்நிலை reasoning தேவைப்படும்போது பயன்படுத்தப்படுகிறது.
இந்த architecture project-ஐ AI agent landscape-இன் முக்கியமான பகுதியில் நிறுத்துகிறது. தற்போதைய போட்டி இப்போது text உருவாக்குவது பற்றியது மட்டும் அல்ல. அது உண்மையான interfaces முழுவதும் perceive செய்யவும், நினைவில் கொள்ளவும், செயல்படவும் கூடிய software உருவாக்குவது பற்றியது.
X-OmniClaw என்ன செய்ய வடிவமைக்கப்பட்டுள்ளது
source camera, screen, text, மற்றும் voice signals-ஐ ஒன்றிணைக்கும் multimodal pipeline-ஐ விவரிக்கிறது. ஒரு vision-language model user என்ன பார்க்கிறார், என்ன கேட்கிறார் என்பதைப் புரிந்து, action எடுக்கும் முன் அந்த intent-ஐ கட்டமைக்கிறது. ஒரு எடுத்துக்காட்டில், user phone-ஐ ஒரு product-ஐ நோக்கிச் சுட்டி, Taobao-வில் அதன் விலை என்ன என்று கேட்கிறார். system அந்த கோரிக்கையை இன்னும் துல்லியமான internal query-ஆக மாற்றி task-ஐ செய்கிறது என கூறப்படுகிறது.
இது முக்கியம், ஏனெனில் real-world mobile assistance குழப்பமானது. மக்கள் மங்கலான கேள்விகள் கேட்கிறார்கள், apps ஒவ்வாத interfaces-ஐ காட்டுகின்றன, மற்றும் visual context பல நேரங்களில் மொழியைப் போலவே முக்கியமாகும். screen-ஐப் படிக்க, OCR மற்றும் grounding tools மூலம் tappable interface elements-ஐ கண்டறிய, voice அல்லது camera input-உடன் அதை இணைக்க முடியும் agent, text box-இல் அமர்ந்த chatbot-ஐ விட நடைமுறை mobile automation-க்கு மிகவும் நெருக்கமானது.
source X-OmniClaw gallery photos-ஐ locally text-based memory-ஆக process செய்யவும், user behavior-ஐ clone செய்து கற்றுக்கொள்ளவும் முடியும் என்றும் கூறுகிறது. demonstrations-இல் இது product prices ஒப்பிடுவது, exercises-க்கு floating helper-ஆக நடப்பது, மற்றும் user gallery-இலிருந்து photo albums உருவாக்குவது போன்றவற்றில் காட்டப்பட்டது.
On-device execution ஏன் தந்திர ரீதியாக முக்கியம்
on-device design முக்கியமாகத் தெரியும் இரண்டு காரணங்கள் உள்ளன. முதல் காரணம் privacy. agent-க்கு personal photos, ambient camera views, app screens, மற்றும் spoken requests-உடன் தொடர்பு கொள்ள வேண்டும் என்றால், பல users அந்த data streams-ஐ தொடர்ந்து cloud-க்கு அனுப்புவது மிகவும் sensitive என்று கருதுவார்கள். Oppo-வின் design core perception மற்றும் control-ஐ phone-இல் வைத்துக் கொண்டு இந்த கவலையை நேரடியாகக் கையாள்கிறது.
இரண்டாவது காரணம் capability. ஒரு phone-ன் cloud clone virtual environment-இல் software automate செய்யலாம், ஆனால் ஒருவரின் கையில் இருக்கும் live physical device-ஐ முழுமையாகப் புரிந்து கொள்ள முடியாது. அது shelf-ஐ நோக்கிய camera feed, உண்மையான handset-இல் வரும் notification, அல்லது local files மற்றும் sensors-இடையே user navigate செய்வதை நேரடியாக அனுபவிக்க முடியாது. system-ஐ device-இல் நிலைநிறுத்துவதன் மூலம், பயனுள்ள agents மனிதர்கள் உண்மையில் கணினியைப் பயன்படுத்தும் சூழல்களிலேயே embodied ஆக இருக்க வேண்டும் என Oppo வாதிடுகிறது.
அந்த வாதம் AI product thinking-இல் ஒரு பெரிய மாற்றத்துடன் பொருந்துகிறது. மிகச்சிறந்த assistants remote model அளவில் பெரியவர்கள் மட்டும் அல்ல. அவர்கள் user-ன் immediate context-உடன் சிறப்பாக ஒருங்கிணைந்தவர்கள் ஆகலாம்.
Open source ஒரு demo-வை ecosystem play-ஆக மாற்றுகிறது
project-ஐ open source ஆக்குவது அதன் முக்கியத்துவத்தை அதிகரிக்கிறது. research demos கவனத்தை ஈர்க்கலாம், ஆனால் சந்தையை மாற்றாது. ஒரு working framework-ஐ open-source செய்வது developers, researchers, மற்றும் போட்டியிடும் device makers architecture-ஐ ஆய்வு செய்யவும், assumptions-ஐ சோதிக்கவும், அதன் மேல் கட்டமைக்கவும் வாய்ப்பளிக்கிறது.
அது adoption-ஐ உறுதி செய்யாது. source எல்லா local models-ஐ அடையாளம் காணவில்லை, மேலும் open-source கிடைப்பதால் reliability, permissions, battery use, அல்லது misuse பற்றிய கடினமான கேள்விகள் தானாகவே தீராது. apps முழுவதும் action எடுக்கக்கூடிய agents வெளிப்படையான security concerns-ஐயும் உருவாக்குகின்றன. screen-ஐப் பார்த்து interface elements-ஐ அழுத்தும் எந்த system-உம் abuse-க்கு சக்திவாய்ந்த automation vector ஆக மாறாமல் இருக்க கவனமாக கட்டுப்படுத்தப்பட வேண்டும்.
அப்படியிருந்தும், இந்த release விவாதத்தை முன்னே நகர்த்துகிறது. device-local context-ஐ மதித்து, constant cloud mirror மீது சார்பை குறைத்துக்கொண்டு, ஒரு agent apps முழுவதும் வேலை செய்ய முடியுமா என்ற mobile AI products பலர் தவிர்த்த கேள்விக்கு இது ஒரு தெளிவான பதிலை அளிக்கிறது.
Mobile agent race இன்னும் physical ஆகிறது
X-OmniClaw general-purpose AI agents சாதாரண users-க்கு தயாரா என்பதைத் தீர்மானிக்கவில்லை. ஆனால் இந்த field எவ்வாறு வளர்கிறது என்பதை இது காட்டுகிறது. assistants-ன் அடுத்த தலைமுறை eloquent conversation-ஐ விட, user பார்க்கும் அதே environment-ஐ perceive செய்ய முடியுமா, user ஏற்கனவே பயன்படுத்தும் அதே software-இல் செயல்பட முடியுமா, மேலும் ஒவ்வொரு interaction-ஐயும் remote server வழியாக கட்டாயப்படுத்தாமல் அதை செய்ய முடியுமா என்பதின் அடிப்படையில் அதிகம் மதிப்பிடப்படும்.
Oppo-வின் project குறிப்பிடத்தக்கது, ஏனெனில் அது இந்த ambtions அனைத்தையும் ஒரே mobile stack-இல் இணைக்கிறது. camera ஒரு query tool ஆகிறது. screen ஒரு action surface ஆகிறது. photo gallery memory ஆகிறது. voice ஒரே முக்கிய input அல்ல, பல synchronized inputs-இல் ஒன்றாக மாறுகிறது. இது phone-based AI agent எப்படி இருக்க வேண்டும் என்பதற்கான grounded பார்வை.
இந்த approach வலுவானது என்று நிரூபிக்கப்பட்டால், அது Android vendors, developers, மற்றும் researchers agent design-ஐ எப்படி எண்ணுகிறார்கள் என்பதைக் கொள்கலாம். smarter chat windows உருவாக்குவதற்குப் பதிலாக, அவர்கள் locally aware, sensor-rich, மற்றும் உண்மையான device environment-இல் செயல்படக்கூடிய assistants உருவாக்குவதில் கவனம் செலுத்தலாம். X-OmniClaw அந்த மாற்றத்தின் ஆரம்பமான ஆனால் முக்கியமான உதாரணம்.
இந்தக் கட்டுரை The Decoder-இன் செய்தியளிப்பை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.
Originally published on the-decoder.com



