وكيل أندرويد بُني حول التحكم على الجهاز
قامت أوبو بفتح مصدر وكيل أندرويد جديد يحمل اسم X-OmniClaw، وأهم ما في هذا الإصدار ليس فقط ما يمكن للبرنامج فعله، بل أين يفعله. ووفقًا للمادة الأصلية، يعمل النظام مباشرة على جهاز أندرويد فعلي بدلاً من العمل داخل هاتف افتراضي مستضاف في السحابة. يتيح هذا التصميم للوكيل استخدام كاميرا الهاتف والشاشة والصوت والبيانات المحلية، مع تجنب الحاجة إلى عكس جهاز المستخدم إلى مركز بيانات بعيد.
هذا الفارق أساسي في طرح المشروع. يمكن لأنظمة الهاتف السحابي تشغيل نسخ أندرويد عن بُعد والسماح لوكيل بالعمل هناك، لكنها تصبح محدودة عندما يتعلق الأمر بالوصول إلى الحساسات المحلية والملفات الخاصة والسياق المادي الحقيقي المحيط بالمستخدم. أما X-OmniClaw، كما يصفه النص الأصلي، فيسلك الطريق المعاكس: الإدراك والتحكم والتفاعل مع التطبيقات كلها على الجهاز نفسه، بينما لا يُستدعى نموذج اللغة السحابي إلا عند الحاجة إلى استدلال أعلى مستوى.
تضع هذه البنية المشروع في جزء مؤثر من مشهد وكلاء الذكاء الاصطناعي. فسباق اليوم لم يعد يتعلق فقط بتوليد النصوص، بل ببناء برمجيات قادرة على الإدراك والتذكر والفعل عبر واجهات حقيقية.
ما الذي صُمم X-OmniClaw للقيام به
يصف المصدر خط معالجة متعدد الوسائط يوحّد إشارات الكاميرا والشاشة والنص والصوت. يفسر نموذج الرؤية واللغة ما يراه المستخدم وما يطلبه، ثم يصوغ تلك النية قبل تنفيذ أي إجراء. في أحد الأمثلة، يوجّه المستخدم الهاتف نحو منتج ويسأل عن سعره على Taobao. ويقال إن النظام يحول ذلك إلى استعلام داخلي أكثر دقة قبل تنفيذ المهمة.
هذا مهم لأن المساعدة المحمولة في العالم الحقيقي معقدة وغير مرتبة. يطرح الناس أسئلة غامضة، وتقدم التطبيقات واجهات غير متسقة، وغالبًا ما يكون للسياق البصري أهمية لا تقل عن أهمية اللغة. الوكيل القادر على قراءة الشاشة واكتشاف عناصر الواجهة القابلة للنقر باستخدام OCR وأدوات الربط، ثم مواءمة ذلك مع إدخال الصوت أو الكاميرا، يقترب كثيرًا من الأتمتة المحمولة العملية مقارنةً بشات بوت موجود داخل صندوق نصي.
ويذكر المصدر أيضًا أن X-OmniClaw يمكنه معالجة صور المعرض محليًا إلى ذاكرة نصية والتعلم عبر استنساخ سلوك المستخدم. وفي العروض التوضيحية، ظهر وهو يقارن أسعار المنتجات، ويعمل كمساعد عائم للتمارين، وينشئ ألبومات صور من معرض المستخدم.
لماذا يُعد التنفيذ على الجهاز مهمًا استراتيجيًا
هناك سببان رئيسيان يبرزان أهمية التصميم على الجهاز. الأول هو الخصوصية. إذا كان الوكيل سيعمل مع الصور الشخصية، ومشاهد الكاميرا المحيطة، وشاشات التطبيقات، والطلبات الصوتية، فسيعتبر كثير من المستخدمين تلقائيًا أن تلك التدفقات من البيانات حساسة للغاية بحيث لا ينبغي إرسالها باستمرار إلى السحابة. يعالج تصميم أوبو هذا القلق مباشرةً عبر إبقاء الإدراك والتحكم الأساسيين على الهاتف.
أما السبب الثاني فهو القدرة. يمكن لنسخة سحابية من الهاتف أن تؤتمت البرمجيات داخل بيئة افتراضية، لكنها لا تستطيع فهم الجهاز المادي الحقيقي في يد الشخص فهمًا كاملًا. فهي لا تستطيع أن تختبر مباشرةً بث كاميرا موجَّهًا نحو رف، أو إشعارًا حقيقيًا يصل إلى الهاتف الفعلي، أو مستخدمًا يتنقل بين الملفات والحساسات المحلية. ومن خلال ربط النظام بالجهاز نفسه، تجعل أوبو من الواضح أن الوكلاء المفيدين يجب أن يكونوا مجسدين في البيئات التي يحسب فيها البشر بالفعل.
يتوافق هذا الطرح مع تحول أوسع في التفكير في منتجات الذكاء الاصطناعي. فقد لا تكون أقوى المساعدات تلك التي تمتلك أكبر نموذج بعيد فقط، بل تلك الأفضل اندماجًا مع سياق المستخدم المباشر.
الفتح المصدر يجعل العرض التوضيحي رهانًا على النظام البيئي
جعل المشروع مفتوح المصدر يزيد من أهميته. فالعروض البحثية قد تجذب الانتباه من دون أن تغيّر السوق. أما فتح إطار عمل عملي كمصدر مفتوح فيمنح المطورين والباحثين والمصنّعين المنافسين فرصة لفحص البنية، واختبار الافتراضات، وربما البناء فوقها.
لكن ذلك لا يضمن الاعتماد. لا يحدد المصدر كل النماذج المحلية المستخدمة، كما أن التوفر كمصدر مفتوح وحده لا يحل الأسئلة الصعبة المتعلقة بالموثوقية أو الأذونات أو استهلاك البطارية أو سوء الاستخدام. والوكلاء القادرون على العمل عبر التطبيقات يطرحون أيضًا مخاوف أمنية واضحة. فأي نظام مصمم لمراقبة الشاشة والضغط على عناصر الواجهة يجب أن يكون مقيدًا بعناية إذا أريد له ألا يصبح أداة أتمتة قوية للإساءة.
ومع ذلك، يدفع هذا الإصدار النقاش إلى الأمام. فهو يقدم إجابة ملموسة عن سؤال تجنبت كثير من منتجات الذكاء الاصطناعي المحمولة مواجهته: هل يستطيع وكيل العمل عبر التطبيقات مع احترام سياق الجهاز المحلي وتقليل الاعتماد على مرآة سحابية دائمة؟
سباق الوكلاء المحمولين يصبح أكثر مادية
لا يحسم X-OmniClaw ما إذا كانت وكلاء الذكاء الاصطناعي العامة جاهزة للمستخدمين العاديين. لكنه يوضح كيف يتطور هذا المجال. ومن المرجح أن يُحكم على الجيل التالي من المساعدين بدرجة أقل على أساس المحادثة البليغة، وبدرجة أكبر على ما إذا كانوا يستطيعون إدراك البيئة نفسها التي يراها المستخدم، والعمل في البرمجيات نفسها التي يستخدمها، والقيام بذلك من دون إجبار كل تفاعل على المرور عبر خادم بعيد.
ويبرز مشروع أوبو لأنه يجمع تلك الطموحات في حزمة واحدة على الهاتف. تصبح الكاميرا أداة استعلام، وتصبح الشاشة سطحًا للفعل، وتصبح مكتبة الصور ذاكرة، ويصبح الصوت واحدًا من عدة مدخلات متزامنة بدلاً من أن يكون المدخل الوحيد المهم. هذه رؤية أكثر رسوخًا لما ينبغي أن يكون عليه وكيل الذكاء الاصطناعي المعتمد على الهاتف.
إذا أثبت هذا النهج متانته، فقد يؤثر في طريقة تفكير مصنّعي أندرويد والمطورين والباحثين في تصميم الوكلاء. فبدلاً من بناء نوافذ دردشة أذكى، قد يركزون على بناء مساعدين واعين بالسياق المحلي، وغنيين بالحساسات، وقادرين على العمل داخل بيئة الجهاز الفعلية. X-OmniClaw مثال مبكر لكنه مهم على هذا التحول.
هذه المقالة تستند إلى تغطية The Decoder. اقرأ المقال الأصلي.
Originally published on the-decoder.com



