تحدي أمان الوكيل
مع تطور نماذج الذكاء الاصطناعي من روبوتات محادثة سلبية إلى وكلاء مستقلين قادرين على تصفح الويب وتنفيذ الأكواد وإدارة الملفات، ارتفعت مخاطر الأمان بشكل كبير. روبوت محادثة يعطي إجابة خاطئة هو مصدر إزعاج. وكيل يتخذ إجراء خاطئ — إرسال بريد إلكتروني أو حذف ملف أو تنفيذ معاملة — لأن مهاجماً تلاعب بتعليماته يمكن أن يسبب ضراراً حقيقياً. لقد نشرت OpenAI الآن مقالة مدونة تقنية مفصلة توضح كيفية تصميم قدرات وكيل ChatGPT للمقاومة ضد حقن المطالبات وهجمات الهندسة الاجتماعية.
حقن المطالبات هو نوع من الهجمات حيث يتم تضمين تعليمات خبيثة في البيانات التي يعالجها وكيل الذكاء الاصطناعي. على سبيل المثال، قد يخفي المهاجم التعليمات في صفحة ويب أو رسالة بريد إلكترونية أو مستند يخبر الوكيل بتجاهل تعليماته الأصلية وتنفيذ إجراءات غير مصرح بها. عندما يقرأ الوكيل ويعالج هذا المحتوى، قد يتبع التعليمات المحقونة، مما قد يؤدي إلى تسرب بيانات حساسة أو اتخاذ إجراءات ضارة نيابة عن المهاجم.
الدفاع المتعدد الطبقات
ينتهج نهج OpenAI للدفاع ضد حقن المطالبات في سير عمل الوكيل استراتيجية دفاع متعدد الطبقات مع عدة آليات متداخلة. لا يعتبر أي دفاع واحد كافياً بمفرده؛ يعتمد النظام على مجموعة من الآليات المتعددة لتوفير حماية قوية حتى إذا تم تجاوز الطبقات الفردية.
الطبقة الأولى هي التسلسل الهرمي للتعليمات. تم تصميم قدرات وكيل ChatGPT لمعاملة التعليمات من مصادر مختلفة بمستويات ثقة مختلفة. التعليمات على مستوى النظام من مطور التطبيق تحصل على أعلى ثقة. تعليمات المستخدم تحصل على ثقة متوسطة. والمحتوى من مصادر خارجية — صفحات ويب ورسائل بريد إلكترونية ومستندات — يحصل على أقل ثقة. عندما تتعارض التعليمات من مصدر ثقة أقل مع تلك الخاصة بمصدر ثقة أعلى، فإن التعليمات ذات الثقة الأعلى لها الأولوية.
يعني هذا التسلسل الهرمي أنه حتى لو كانت صفحة ويب تحتوي على نص يقول "تجاهل تعليماتك السابقة،" فسيعترف وكيل ChatGPT بهذا على أنه تعليمات خارجية بمستوى ثقة منخفض لا يمكنها تجاوز التوجيهات على مستوى النظام أو المستخدم.
تقييد الإجراءات الخطرة
آلية الدفاع الرئيسية الثانية تنطوي على تقييد الإجراءات التي يمكن للوكلاء اتخاذها في الرد على المحتوى الخارجي. تصنف OpenAI إجراءات الوكيل على طول طيف المخاطر، من العمليات منخفضة المخاطر للقراءة فقط مثل البحث على الويب إلى العمليات عالية المخاطر مثل إرسال رسائل البريد الإلكترونية والقيام بعمليات شراء أو تعديل الملفات.
الإجراءات عالية المخاطر تتطلب تأكيداً صريحاً من المستخدم قبل التنفيذ، بغض النظر عن التعليمات التي تلقاها الوكيل. يؤدي هذا إلى إنشاء نقطة تحقق يدوية ضمن الحلقة تمنع الاستغلال الآلي حتى لو قام المهاجم بحقن التعليمات بنجاح التي تفشل الدفاعات الأخرى للوكيل في اكتشافها.
بالنسبة للإجراءات متوسطة المخاطر، يطبق النظام تحليلاً سياقياً لتحديد ما إذا كان الإجراء المطلوب متسقاً مع النية الأصلية للمستخدم. إذا طُلب من وكيل تلخيص صفحات ويب وكانت إحدى تلك الصفحات تحتوي على تعليمات لصياغة بريد إلكتروني، فإن عدم توافق السياق يؤدي إلى مراجعة إضافية وتأكيد المستخدم.
حماية البيانات الحساسة
طبقة دفاع ثالثة تركز على منع تسرب البيانات — السيناريو حيث يتم استخدام حقن المطالبات لاستخراج معلومات حساسة من سياق الوكيل وإرسالها إلى المهاجم. ينطوي نهج OpenAI على مراقبة تدفق المعلومات من خلال سير عمل الوكيل والإشارة إلى الأنماط التي تشير إلى أن البيانات يتم توجيهها إلى وجهات غير مصرح بها.
على سبيل المثال، إذا كان الوكيل يعالج مستند يحتوي على معلومات شخصية ثم يحاول تضمين تلك المعلومات في طلب ويب إلى مجال غير مألوف، فإن النظام يعترف بهذا على أنه محاولة تسرب محتملة ويحظر الإجراء.
التدريب على مستوى النموذج
وراء كل هذه الدفاعات المعمارية يوجد التدريب على مستوى النموذج. قامت OpenAI بدمج مقاومة حقن المطالبات في عملية تدريب ChatGPT، باستخدام كل من الضبط الدقيق الخاضع للإشراف مع أمثلة على محاولات الحقن والتعلم التعزيزي من ملاحظات الإنسان لتعليم النموذج التعرف على محاولات التلاعب ومقاومتها.
يشمل هذا التدريب التعرض لمجموعة واسعة من تقنيات الحقن: تجاوزات التعليمات المباشرة وسيناريوهات تلعب الأدوار المصممة للالتفاف حول إرشادات السلامة والتعليمات المشفرة أو المبهمة وسلاسل التلاعب متعددة الخطوات والتكتيكات الهندسية الاجتماعية التي تستهدف فائدة النموذج للالتفاف حول قيود الأمان الخاصة به.
والنتيجة هي نموذج لا يتبع مجموعة من القواعس الأمان الثابتة فقط بل قد استيعب فهماً لماهية حقن المطالبات وسبب مقاومتها.
سباق تسلح مستمر
تعترف OpenAI بأن دفاع حقن المطالبات هو سباق تسلح مستمر بدلاً من كونه مشكلة محلولة. سيطور المهاجمون تقنيات جديدة، ويجب أن تتطور الدفاعات في الاستجابة. تعمل مقالة المدونة كإجراء شفافية وكمساهمة في فهم مجتمع الأمان الأوسع للذكاء الاصطناعي لتحديات أمان الوكيل.
مع أن وكلاء الذكاء الاصطناعي تصبح أكثر قدرة وأوسع نطاقاً في النشر، ستستمر مخاطر هجمات حقن المطالبات في الارتفاع. يوفر نهج الدفاع المتعدد الطبقات الذي تصفه OpenAI — الجمع بين التسلسل الهرمي للتعليمات وقيود الإجراءات ومراقبة تدفق البيانات والتدريب على مستوى النموذج — إطار عمل قد يعتمده ويوسعه مطورو الذكاء الاصطناعي الآخرون حيث تتعامل الصناعة مع الآثار الأمنية لأنظمة الذكاء الاصطناعي المتزايدة بشكل مستقل.
تستند هذه المقالة إلى تقارير OpenAI. اقرأ المقالة الأصلية.

