تسعى هايبر-وكلاء ميتا إلى تحسين المهام ومنطق التحسين الذاتي

ميتا ومتعاونون أكاديميون يدفعون بالذكاء الاصطناعي القادر على تحسين ذاته خطوة أبعد

يقول باحثون من ميتا وجامعة كولومبيا البريطانية ومؤسسات أخرى إنهم طوروا فئة جديدة من الأنظمة تُسمى «الهايبر-وكلاء»، وهي قادرة ليس فقط على تحسين قدرتها على حل المهام، بل أيضًا على تحسين العملية التي تستخدمها لتحسين نفسها. وإذا أثبت هذا النهج صلاحيته، فسيشكّل توسعًا مهمًا في الذكاء الاصطناعي القادر على تحسين ذاته إلى ما هو أبعد من المجالات التي نجحت فيها الأساليب السابقة، ولا سيما البرمجة.

ويعتمد هذا العمل، بحسب ما نقلته The Decoder، على Darwin Gödel Machine، أو DGM، وهو إطار يقوم فيه وكيل بتوليد نسخ مختلفة من شيفرته الخاصة، واختبارها، وتخزين النسخ الناجحة في أرشيف يمكنه دعم جولات إضافية من التحسين. ويشير النص المصدر إلى أن القيد الأساسي في ذلك الإعداد السابق كان أن الآلية التي توجه التحسين بقيت ثابتة يحددها البشر. كان بإمكان الوكيل أن يحسن نفسه داخل ذلك الإطار، لكنه لم يكن قادرًا على تغيير الإطار نفسه.

ما الذي يجعل الهايبر-وكيل مختلفًا

الحل المقترح هو الجمع بين وظيفتين داخل برنامج واحد قابل للتعديل. يتولى أحد المكونات المهمة الحالية، مثل تقييم ورقة علمية أو تصميم دالة مكافأة لروبوت. أما المكون الآخر فيعدّل الوكيل ويُنشئ نسخًا جديدة منه. وبما أن كلا المكونين موجودان داخل قاعدة الشيفرة نفسها، فيمكن للنظام، من حيث المبدأ، أن يعيد كتابة ليس فقط سلوكه في حل المهام، بل أيضًا منطق تحسينه.

هذا هو الادعاء المركزي وراء فكرة الهايبر-وكيل. فبدلًا من أن يتحسن فقط داخل غلاف ثابت كتبه البشر، يستطيع الوكيل أيضًا تحسين هذا الغلاف نفسه. وبصياغة التقرير الأصلي، فإنه يصبح أفضل في المهام وفي «التفكير منذ البداية في كيفية التحسن».

وهذا مهم لأن التحسين الذاتي واجه منذ وقت طويل سقفًا معينًا. فقد يكون النظام قويًا للغاية في مجال ما، لكنه لا يزال يعتمد على آليات صُنعت يدويًا ولا تتطور هي نفسها. وتحاول الهايبر-وكلاء إزالة هذه العقبة عبر جعل المستوى الفوقي قابلًا للتعديل أيضًا.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 يفتح مجموعة بيانات روبوتية مدتها 2,000 ساعة

أطلقت X Square Robot نظام XRZero-G0 ومجموعة بيانات متعددة الوسائط مدتها 2,000 ساعة بهدف تقليل كمية بيانات الروبوتات الحقيقية اللازمة لأنظمة الذكاء الاصطناعي المجسّد.

Read article

لماذا لم يتعمم التحسين الذاتي السابق جيدًا

وفقًا للنص المصدر المرفق، أظهرت Darwin Gödel Machine الأصلية بعض الوعود في مهام البرمجة لأن هناك علاقة طبيعية بين أن تكون مبرمجًا أفضل وأن تكتب تعديلات ذاتية أفضل. ففي البرمجة، ترتبط مهارة الوكيل في المهمة ومهارته في تغيير تطبيقه الخاص ارتباطًا وثيقًا.

خارج البرمجة، يضعف هذا الارتباط. فالوكيل الذي يصبح أفضل في تقييم الأوراق العلمية لا يصبح تلقائيًا أفضل في إعادة كتابة شيفرته الخاصة. ويقول الباحثون إن هذا هو سبب الأداء الضعيف للنظام DGM الأصلي خارج البرمجة من دون تعديلات يدوية. ويذكر التقرير أن النظام حقق أداءً يقترب من الصفر في المهام غير البرمجية ما لم يتدخل البشر لضبطه.

وتهدف الهايبر-وكلاء إلى معالجة هذا النمط من الفشل. فمن خلال السماح بتحسين آلية التحسين نفسها، يسعى الباحثون إلى الحفاظ على البنية التطورية المعتمدة على الأرشيف في DGM مع تحرير الوكيل الفوقي من الجمود الدائم.

النظام الجديد: DGM-H

يطلق الفريق على النهج الجديد اسم DGM-Hyperagents، أو DGM-H. ويظل الأرشيف جزءًا أساسيًا من الطريقة. إذ يقوم النظام بتوليد نسخ مختلفة، وتقييمها، واستخدام النسخ الناجحة كخطوات تمهيدية للتغييرات المستقبلية. وما يتغير هو أن المكون «الفوقي» لم يعد مقفلًا. فقد صُممت البنية بحيث يمكن تعديل عملية الوكيل في توليد نسخ أفضل بوصفها جزءًا من الدورة نفسها.

ويمثل ذلك تحولًا مفاهيميًا كبيرًا. ففي كثير من أنظمة الذكاء الاصطناعي، يبقى التحسين الذاتي مقيدًا بفصل صارم بين محلل المهمة على مستوى الكائن، وبين وحدة التحكم أو منطق التدريب على المستوى الفوقي. ويقلل DGM-H من هذا الفصل بوضع الاثنين معًا في شيفرة قابلة للتعديل. والنتيجة، نظريًا على الأقل، هي نظام لديه فرصة أفضل للتكيف مع المجالات غير المألوفة التي لا يكون فيها مسار التحسن متوافقًا مسبقًا مع الكفاءة في المهمة.

أنثروبيك تدعو إلى تدقيقات ملزمة بينما تعيد تأطير الذكاء الاصطناعي كبنية تحتية استراتيجية

يقول الرئيس التنفيذي لأنثروبيك داريو أمودي إن قواعد الشفافية لم تعد كافية، ويدعو إلى تدقيقات إلزامية من طرف ثالث لأنظمة الذكاء الاصطناعي المتقدمة.

Read article

النتائج المعلنة عبر أربع فئات من المهام

يقول النص المرشح إن الباحثين اختبروا DGM-H عبر أربع فئات من المهام وبلغوا عن مكاسب كبيرة. لكن المقتطف لا يقدم النتائج الرقمية الكاملة، لذا لا ينبغي المبالغة فيها. وما يمكن قوله هو أن فريق البحث يعرض النظام على أنه أقوى بكثير من الإعداد الأصلي من حيث قابلية التطبيق الأوسع.

وتكتسب هذه الفكرة أهمية لأن العمومية من أصعب الأهداف في الذكاء الاصطناعي القادر على تحسين ذاته. فكثير من الأنظمة يؤدي جيدًا في ظروف ضيقة، لكنه يعتمد على افتراضات مصممة يدويًا تتعطل عندما تتغير البيئة. وإذا استطاعت الهايبر-وكلاء التحسن بشكل ملموس عبر أنواع مختلفة من المهام، فستمثل تقدمًا نحو أنظمة ذاتية أكثر مرونة.

في الوقت نفسه، يصف النص المرفق هذا العمل على أنه بحث، لا قدرة إنتاجية. ولذلك ينبغي فهمه كخطوة تجريبية، لا كدليل على أن ذكاءً اصطناعيًا متسارعًا ذاتيًا يعمل بالفعل على نطاق واسع.

لماذا يهم هذا البحث

تكمن الأهمية الأوسع للهايبر-وكلاء في الجهة التي يدفعون إليها حدود المجال. فقد استكشف باحثو الذكاء الاصطناعي منذ فترة طويلة أنظمة يمكنها البحث أو التحسين أو كتابة الشيفرة لتحسين الأداء. أما المشكلة الأصعب فهي بناء أنظمة تستطيع مراجعة منطق المراجعة نفسه من دون أن تنهار إلى تغييرات غير مثمرة. ويُقدَّم DGM-H على أنه محاولة لجعل هذه الحلقة التكرارية أكثر قدرة وأوسع فائدة.

وإذا أثبت النهج متانته، فقد يكون مهمًا في المجالات التي لا تتقاطع فيها مهارة المهمة ومهارة التعديل الذاتي بصورة طبيعية. ويذكر النص المصدر أمثلة مثل التحليل العلمي والروبوتات وغيرها من المجالات المعقدة. وفي مثل هذه البيئات، قد تعتمد قيمة النظام بشكل متزايد على قدرته ليس فقط على التصرف، بل على إعادة تصميم كيفية تعلمه وتكيفه.

وهذا الاحتمال يفسر أيضًا سبب جذب العمل للاهتمام خارج التفاصيل التقنية. فالنظام القادر على تحسين مُحسِّنه الخاص يمس أسئلة أساسية في نمو قدرات الذكاء الاصطناعي، والسلامة، والتقييم، والتحكم. ويؤكد التقرير المرفق على مكاسب الأداء المحتملة، لكن الفكرة المعمارية نفسها ستجذب على الأرجح تدقيق الباحثين المهتمين بالإشراف والمواءمة.

خطوة تدريجية لكنها ملحوظة

استنادًا إلى المادة المتاحة، فإن الاستنتاج الأكثر أمانًا هو أن ميتا ومتعاونيها يطورون نموذجًا أكثر مرونة للتحسين الذاتي، لا يثبتون مسارًا محلولًا إلى ذكاء تكراري جامح. يعالج هذا البحث نقطة ضعف محددة في أساليب التعديل الذاتي السابقة ويدّعي تحقيق تقدم عبر عدة فئات من المهام.

وهذا وحده يجعله لافتًا. فكثيرًا ما يُناقش الذكاء الاصطناعي القادر على تحسين ذاته بصياغات مجردة أو استشرافية. أما الهايبر-وكلاء فتعطي هذا النقاش شكلًا تقنيًا أكثر تحديدًا: آليات فوقية قابلة للتعديل، وتكرار قائم على الأرشيف، ومحاولة صريحة للتعميم إلى ما وراء هندسة البرمجيات. وسواء أصبح هذا النهج أساسيًا أم بقي تجربة مفيدة، فسيعتمد ذلك على نتائج تتجاوز الملخص المعروض هنا. لكن باعتباره اتجاهًا بحثيًا، فإنه يستهدف بوضوح أحد أكثر الأسئلة تأثيرًا في الذكاء الاصطناعي: ليس فقط ما إذا كانت الأنظمة تستطيع التحسن، بل ما إذا كانت تستطيع تحسين عملية التحسن نفسها.

هذا المقال يستند إلى تغطية The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

يقول باحثو ميتا إن «الهايبر-وكلاء» يمكنهم تحسين المهام وطريقة تحسينها معًا