تحدي IH-Challenge من OpenAI يدرب نماذج LLM على مقاومة التلاعب

تعليم نماذج الذكاء الاصطناعي اتباع التعليمات الصحيحة

نشرت OpenAI بحثاً عن منهجية تدريب جديدة تسمى IH-Challenge، مصممة لحل إحدى أكثر المشاكل استمراراً في أنظمة AI المنتشرة: جعل النماذج تعطي الأولوية بشكل موثوق للتعليمات الصادرة من مبادئ موثوقة - المطورون والمشغلون والمستخدمون المتحققون - على التعليمات المعادية المحتملة التي تصل عبر قنوات غير موثوقة مثل محتوى الويب أو مخرجات الأدوات.

يتناول العمل ما تسميه مجتمع سلامة الذكاء الاصطناعي مشكلة التسلسل الهرمي للتعليمات. قد يتلقى نموذج اللغة الكبير الذي يعمل كعامل تعليمات من عدة مصادر في نفس الوقت: نموذج نظام من المطور وتعليمات من المستخدم ومحتوى مسترجع من الويب أو الأدوات الخارجية. عندما تتعارض هذه التعليمات، يحتاج النموذج إلى طريقة مبدئية لتحديد أي منها يجب اتباعه.

لماذا أثبتت التسلسل الهرمي للتعليمات صعوبة

نظرياً، الحل بسيط: يجب أن يكون نموذج النظام دائماً أولوية على مدخلات المستخدم، والتي يجب أن تكون أولوية على محتوى من مصادر خارجية. في الواقع، أثبتت نماذج اللغة المدربة بشكل أساسي على التغذية الراجعة البشرية أنها سيئة بشكل مفاجئ في الحفاظ على هذه الهرميات تحت الضغط المعادي.

استغل المهاجمون هذه الضعف على نطاق واسع. تعرض نماذج AI التي تم اختراقها عبر عشرات عمليات النشر في العالم الحقيقي لهجمات prompt injection - حيث يشير النص الضار المضمن في صفحة ويب أو مستند إلى AI لتجاهل نموذج النظام الخاص به واتباع توجيهات جديدة. غالباً ما تكون الهجمات بسيطة بشكل تافه، وتستخدم عبارات مثل تجاهل جميع التعليمات السابقة المضمنة في محتوى يبدو براغماتياً غير مؤذٍ.

يتناول IH-Challenge هذا من خلال إنشاء أمثلة تدريبية مصممة خصيصاً لاختبار التزام التسلسل الهرمي للتعليمات. تتضمن مجموعة البيانات سيناريوهات حيث تتعارض التعليمات المعادية من مصادر منخفضة الثقة بشكل مباشر مع نماذج النظام عالية الثقة، مما يدرب النموذج على التعرف على محاولات التلاعب هذه ومقاومتها.

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic تمنع أدوات الذكاء الاصطناعي في المقابلات لاختبار المرشحين

تُفترض أن Anthropic تحظر المساعدة بالذكاء الاصطناعي في مقابلات العمل المباشرة ما لم يُسمح بذلك صراحةً، في محاولة لتقييم كيفية تفكير المتقدمين بأنفسهم.

Read article

ثلاث أعمدة للتحسين

تقرير OpenAI تحسينات في ثلاثة أبعاد متميزة. أولاً، الامتثال للتسلسل الهرمي للتعليمات: النماذج المدربة مع IH-Challenge أكثر عرضة بشكل كبير لاتباع توجيهات نموذج النظام عند مواجهة تعليمات مستخدم متضاربة. ثانياً، السيطرة على السلامة: يمكن للمشغلين تخصيص سلوك النموذج بشكل موثوق في حدود السياسات المحددة من OpenAI. ثالثاً، مقاومة prompt injection: تظهر النماذج قابلية منخفضة بشكل كبير للتعرض لهجمات الحقن في الأشكال المباشرة وغير المباشرة.

يكتشف البحث أيضاً أن تدريب IH-Challenge يتعميم خارج السيناريوهات المحددة المستخدمة في التدريب. يبدو أن النماذج تطور تمثيلاً داخلياً أكثر قوة لمستويات الثقة، مما يطبق الهرمية المتعلمة على أنماط الهجوم الجديدة التي لم تشهدها أثناء التدريب.

الآثار المترتبة على نشر عامل AI

يأتي العمل في لحظة حرجة. مع حصول عوامل AI على البريد الإلكتروني والمتصفحات وبيئات تنفيذ الكود والبرامج الموجهة للمؤسسات، تتصعد عواقب هجمات prompt injection الناجحة من المحرجة إلى الكارثية. يمكن لوكيل يمكن اختراقه عبر صفحة ويب ضارة تسريب البيانات الحساسة أو سرقة بيانات اعتماد أو اتخاذ إجراءات تخريبية على نطاق واسع.

يمثل IH-Challenge قطعة من اللغز الأكبر. يجب دمج الدفاعات التقنية على مستوى التدريب مع الحماية المعمارية - بيئات التنفيذ المحمية بالرمل والأبواب المؤكدة للإجراءات عالية الأخطار والنطاق الحذر لأذونات الأدوات - لتوفير حماية ذات مغزى. لكن كدفاع على مستوى الأساس مدمج في النموذج نفسه، فإنه يرفع خط الأساس بشكل كبير.

تستند هذه المقالة إلى تقارير OpenAI. اقرأ المقالة الأصلية.