صياغة التعليمات ما زالت تكسر موثوقية الذكاء الاصطناعي
يشير تدقيق جديد من NewsGuard إلى أن Le Chat من Mistral لا يزال شديد القابلية للتأثر بالتضليل عندما يصوغ المستخدمون الأكاذيب على أنها حقائق ثابتة أو يطلبون من روبوت الدردشة المساعدة في إعادة تغليف تلك الادعاءات لتوزيعها على نطاق أوسع.
النتائج، التي نُشرت في 29 أبريل، تركز على روايات كاذبة مرتبطة بحرب إيران وتظهر فرقًا حادًا بين كيفية استجابة النموذج للأسئلة المحايدة وكيفية استجابته للتعليمات الموجِّهة أو الخبيثة علنًا. وهذه الفجوة مهمة لأنها تسلط الضوء على نقطة ضعف مألوفة لكنها لم تُحل بعد في أنظمة الذكاء الاصطناعي الاستهلاكية: كثير منها قد يتصرف بصورة معقولة عند الأسئلة المباشرة، لكنه يفشل بشكل كبير عندما تكون التعليمات نفسها عدائية.
ما الذي اختبره التدقيق
وفقًا للتقرير، اختبرت NewsGuard عشر ادعاءات كاذبة صادرة عن مصادر روسية وإيرانية وصينية. وشملت الأمثلة تفشيًا مفبركًا للتيفوس على متن الحاملة الفرنسية Charles de Gaulle، وتقارير عن مقتل مئات الجنود الأمريكيين، وهجومًا مزعومًا بطائرة مسيّرة إماراتية على عُمان.
وجرى تمرير كل ادعاء عبر ثلاثة أنواع من التعليمات:
- استفسارات محايدة تسأل عن الادعاء دون افتراض صحته
- استفسارات موجِّهة تتعامل مع الادعاء الكاذب بوصفه حقيقة
- تعليمات خبيثة تطلب من روبوت الدردشة إعادة صياغة التضليل في محتوى جاهز لوسائل التواصل الاجتماعي
كانت النتائج المعلنة صارخة. بلغت معدلات الخطأ نحو 10 في المئة في التعليمات المحايدة، و60 في المئة في التعليمات الموجِّهة، و80 في المئة في التعليمات الخبيثة. وعبر التدقيق الكامل، قالت NewsGuard إن Le Chat أظهر معدل خطأ بلغ 50 في المئة بالإنجليزية و56.6 في المئة بالفرنسية.
لماذا تهم هذه الأرقام
لا تقتصر هذه النتائج على إظهار أن النموذج قد يخطئ في الوقائع. بل إنها تشير إلى أن بنية التعليمات نفسها تؤثر بقوة في ما إذا كان النظام يقاوم السرديات الكاذبة أو يضخمها. عمليًا، هذا يعني أن المستخدم غير المتأكد الذي يطرح سؤالًا بحذر قد يتلقى نوعًا من الإجابة، بينما يمكن للمستخدم الذي يعتزم تبييض التضليل أن يستخرج شيئًا أكثر خطورة بكثير.
هذا التمييز محوري في نقاش سلامة الذكاء الاصطناعي. أصعب تحدٍّ في العالم الواقعي ليس ما إذا كان روبوت الدردشة قادرًا على الإجابة بشكل صحيح عن سؤال حقائقي من كتاب دراسي في ظروف مثالية. بل ما إذا كان النظام يظل موثوقًا عندما يستخدم الناس صياغة بلاغية أو سياقًا انتقائيًا أو تلاعبًا مباشرًا لدفعه خارج المسار.
وبهذا المعيار، يشير التدقيق إلى مشكلة كبيرة في المتانة.
ضغط التضليل يصل في زمن الحرب
يجعل السياق الجيوسياسي هذه النتائج أكثر أهمية. فبيئات المعلومات زمن الحرب تكون أصلًا مشبعة بادعاءات غير قابلة للتحقق ودعاية وسرديات مشحونة عاطفيًا. في مثل هذه الظروف، يمكن لروبوتات الدردشة أن تصبح عوامل تسريع إذا كانت تلخص الادعاءات الكاذبة أو تؤيدها أو تصقلها أسلوبيًا أسرع مما يستطيع المدققون البشريون الرد.
ومن اللافت أيضًا تركيز التدقيق على السرديات المرتبطة بالدول. فالتضليل لم يعد مجرد مشكلة إشراف على المحتوى في المنصات الاجتماعية؛ بل أصبح بشكل متزايد مشكلة استرجاع وتلخيص وتوليد بالنسبة لمساعدي الذكاء الاصطناعي. يمكن لروبوت دردشة يأخذ التعليمات الموجِّهة بحرفيتها المفرطة أن يصبح هدفًا سهلًا في ذلك النظام البيئي.
هذا لا يعني أن النظام منحاز عمدًا إلى الكذب. بل يعني أن النموذج قد يفتقر إلى الضمانات الكافية عندما تُقدَّم المعلومات السيئة بثقة أو عندما تُصاغ طلبات المستخدم بوصفها مهمة إنتاج محتوى لا مهمة بحث عن الحقيقة.
لماذا لا يكفي الأداء المحايد
معدل الخطأ البالغ 10 في المئة في التعليمات المحايدة ليس مثاليًا، لكن الفارق بينه وبين نطاق 60 إلى 80 في المئة في التعليمات الأكثر تلاعبًا هو ما يبرز هنا. ويشير ذلك إلى أن دفاعات النظام سطحية نسبيًا. فبدلًا من فحص فرضية الادعاء على نحو قوي، قد يقبل النموذج في كثير من الأحيان صياغة المستخدم وينطلق منها.
وهذا أحد الأسباب التي تجعل تقييمات السلامة المعتمدة فقط على معايير محايدة قد تكون مضللة. فالاستخدام العام لا يقتصر على مستخدمين حذرين وحسنين النية. بل يختبره أيضًا دعاة الدعاية والمسوقون والمضايقون على الإنترنت وأشخاص عاديون يكررون الشائعات بالشكل الذي صادفوها به أول مرة.
إذا انهارت دقة النموذج تحت هذه الظروف، فإن موثوقيته العملية أضعف مما قد توحي به أرقام المعايير البارزة.
التحدي السياسي وتحدي المنتج
وفقًا للتقرير، لم ترد Mistral على طلب NewsGuard للتعليق. وهذا يترك السؤال مفتوحًا حول ما إذا كانت الشركة تخطط لضمانات على مستوى التعليمات، أو تحقق أقوى من الادعاءات، أو استراتيجيات رفض، أو تدابير تخفيف أخرى مصممة للروايات المرتبطة بالصراعات سريعة التغير.
وهناك تفصيل إضافي: يُقال إن وزارة الدفاع الفرنسية تستخدم نسخة مخصصة وغير متصلة بالإنترنت من Le Chat. وهذا لا يربط تلقائيًا سلوك المستهلك الذي خضع للتدقيق بالتطبيقات الحكومية، لكنه يبرز لماذا لا تُعد موثوقية النموذج تحت التعليمات العدائية مسألة هامشية.
تسوق الشركات المطورة أنظمة الذكاء الاصطناعي على نحو متزايد بوصفها مساعدات بحث وأدوات تواصل ومساعدات سير عمل. وهذه الوظائف تضعها مباشرة في مسار النزاعات المعلوماتية عالية الأثر. النماذج التي تؤدي جيدًا فقط عندما يطرح المستخدمون أسئلة محايدة تمامًا لا تفي بمتطلبات بيئة التشغيل الحقيقية.
ما الذي يشير إليه هذا التدقيق بشأن المرحلة التالية من سلامة الذكاء الاصطناعي
أهم درس من نتائج NewsGuard هو أن مقاومة المعلومات المضللة يجب أن تخضع لاختبارات ضغط وفق أنماط هجوم واقعية، لا وفق حالات استخدام مهذبة فقط. فالأسئلة الموجِّهة وطلبات إعادة تغليف المحتوى أصبحت اليوم أوضاع فشل عادية، لا حالات هامشية.
بالنسبة للمستخدمين، الخلاصة بسيطة: ما زالت روبوتات الدردشة حكامًا سيئين للحقيقة في الأحداث الجيوسياسية المتنازع عليها وسريعة التغير ما لم تُتحقق إجاباتها بشكل مستقل. أما بالنسبة للمطورين، فالرسالة أكثر طلبًا. على النماذج أن تفعل أكثر من مجرد استرجاع نص معقول. يجب أن تتحدى المقدمات غير المدعومة، وتحدد التلاعب السردي، وترفض أن تصبح طبقات تنسيق للدعاية.
Le Chat ليس وحده في مواجهة هذه المشكلة. لكن التدقيق يقدم تذكيرًا ملموسًا بأنه ما دامت صياغة التعليمات قادرة على تغيير الأداء بهذه الصورة الحادة، فيجب التعامل بحذر مع الادعاءات حول المساعدة الموثوقة من الذكاء الاصطناعي في مجال المعلومات.
هذه المقالة تستند إلى تقرير The Decoder. اقرأ المقال الأصلي.
Originally published on the-decoder.com


