OpenAI يحدّث ChatGPT للتعرّف بشكل أفضل على المخاطر في المحادثات الحساسة

OpenAI تنقل تركيز الأمان من الطلبات المنفردة إلى السياق المتطور

تقول OpenAI إنها حدّثت ChatGPT بحيث يتمكن النظام من التعرّف بشكل أفضل على المخاطر في المحادثات الحساسة من خلال مراقبة كيفية ظهور علامات التحذير مع مرور الوقت. ويركز إعلان الشركة على السيناريوهات الحادة، بما في ذلك الانتحار وإيذاء النفس وإيذاء الآخرين، معتبرة أن النية الضارة لا تكون دائمًا ظاهرة في رسالة واحدة، وقد لا تتضح إلا عندما تُفهم المحادثة كسلسلة متتابعة.

يعكس هذا التغيير تحديًا أساسيًا في أمان الذكاء الاصطناعي الحواري. فالطلب الذي يبدو عاديًا عند النظر إليه منفردًا قد يحمل معنى مختلفًا عندما يقترن بإشارات ضيق سابقة، أو لغة تصعيدية، أو طلبات متكررة للحصول على تفاصيل خطرة. وتقول OpenAI إن التحديثات الجديدة تهدف إلى مساعدة ChatGPT على استخدام هذا السياق الأوسع لتحديد متى يرفض المحتوى غير الآمن، أو يهدئ الموقف، أو يوجّه المستخدم إلى الدعم.

ما الذي تقول OpenAI إنه تغيّر

بحسب الشركة، أصبح لدى ChatGPT الآن تدريب وسياسات محسّنة للتعرّف على الإشارات الدقيقة أو المتطورة التي تشير إلى ارتفاع المخاطر. وتقول OpenAI إن الهدف مزدوج: زيادة الحذر عندما تظهر إشارات الخطر، مع تجنب الإفراط في التفاعل في الغالبية العظمى من المحادثات السليمة.

يمكن لسياق الرسائل السابقة أن يؤثر الآن في قرارات الأمان اللاحقة
النظام مخصص للسيناريوهات النادرة ولكن عالية المخاطر
قد تتضمن الردود تهدئة الموقف، أو رفض التفاصيل الضارة، أو إعادة التوجيه إلى بدائل أكثر أمانًا

وتقول OpenAI إن هذا العمل يستند إلى سنوات من التدريب والتقييم وأنظمة المراقبة وأكثر من عامين من التعاون مع خبراء الصحة النفسية والسلامة. كما تضع الشركة هذا التحديث ضمن نهجها الأوسع “safe completion”، الذي يهدف إلى رفض الأجزاء غير الآمنة من الطلب مع البقاء مفيدًا حيث يمكنه ذلك بأمان.

لماذا يهم السياق في الممارسة

إن صياغة الشركة مهمة لأن الأنظمة الحوارية كثيرًا ما تُحكم على أساس كل رسالة على حدة، رغم أن المخاطر قد تكون تراكمية. فقد يبدأ شخص ما بأسئلة غامضة أو تبدو روتينية، ثم يكشف عن نيته تدريجيًا. وتقول OpenAI إن هذه التحديثات مصممة لمساعدة النموذج على ربط تلك الإشارات عند الحاجة.

وهذا الهدف التصميمي يعمل في اتجاهين. فالنموذج الذي يفوته السياق الناشئ قد يرد بتساهل زائد في المواقف عالية المخاطر. أما النموذج الذي يبالغ في قراءة السياق فقد يصبح هشًا وغير مفيد في الاستخدام العادي. وتقول OpenAI إن هدفها هو التمييز بين مئات الملايين من التفاعلات العادية التي يجريها الناس يوميًا وبين الحالات الأندر بكثير التي تستدعي قدرًا أكبر من الحذر.

التركيز على سيناريوهات الضرر الحاد

تقول OpenAI إن العمل الحالي يركز على الحالات الحادة وليس على كل تبادل صعب أو مشحون عاطفيًا. وتحدد الشركة صراحة حالات الانتحار وإيذاء النفس وإيذاء الآخرين بوصفها الأهداف الرئيسية لهذا التحديث. وفي تلك الحالات، تقول إن ChatGPT أصبح أفضل في التمييز بين الطلبات البريئة والطلبات التي قد تشير إلى خطر أعلى عند النظر إليها في سياقها.

وهذا التمييز مهم لأن كثيرًا من المحادثات الحساسة ليست خطرة بطبيعتها. فقد يناقش المستخدمون الصحة النفسية أو الوقاية من الأزمات أو الضيق الشخصي بطرق مشروعة. والهدف المعلن لـ OpenAI ليس حظر هذه المحادثات على نطاق واسع، بل الرد بحذر أكبر عندما يشير السياق إلى أن التفاعل قد يتجه نحو الخطر.

آثار على الثقة والحوكمة

يأتي هذا التحديث ضمن حركة أوسع في الصناعة نحو أنظمة أمان حوارية أكثر من كونها ثابتة. وغالبًا ما تعتمد الضمانات التقليدية على عبارات تحفيزية أو قواعد محلية جدًا. ويشير إعلان OpenAI إلى نموذج أكثر ارتباطًا بالحالة، حيث يتتبع النظام كيف تتطور المحادثة ويعدل سلوكه وفقًا لذلك.

وقد يحسن هذا النهج الأداء في الحالات الحدية التي تكتسب أهمية كبيرة من منظور منع الضرر. وفي الوقت نفسه، يثير أسئلة مألوفة حول الشفافية والاتساق. فكلما استخدم النموذج السياق المتراكم لاتخاذ أحكام أمان، زادت أهمية ضمان أن تكون هذه الأحكام موثوقة وألا تنزلق إلى حذر مفرط الاتساع. ولا يقدم بيان OpenAI نتائج كمية جديدة في النص المرفق، لكنه يوضح أن الشركة ترى السياق الطولي عنصرًا أساسيًا للتعامل الجيد مع الحالات النادرة وعالية المخاطر.

إشارة إلى اتجاه أمان المحادثات

يبرز إعلان OpenAI رؤية أكثر نضجًا لأمان الذكاء الاصطناعي في أنظمة الحوار. فالمسألة لم تعد فقط ما إذا كان النموذج يستطيع رفض طلب خطير بوضوح. بل ما إذا كان يستطيع التعرّف على متى تتشكل المخاطر تدريجيًا، حتى لو لم تكن أي رسالة منفردة كافية وحدها.

إذا تحسنت هذه القدرة، فقد تصبح استجابات الأمان أكثر تناسبًا وأكثر استهدافًا. وبدلًا من اعتبار كل عبارة غامضة على أنها شديدة الخطورة بالقدر نفسه، يمكن للنظام أن يحتفظ بتدخله الأقوى للحالات التي تقدّم فيها المحادثة نفسها دليلًا على أن الحذر يجب أن يزداد. وتعرض OpenAI هذا التحديث بوصفه خطوة أخرى في ذلك الاتجاه، مع تركيز ضيق على الحالات النادرة التي يكون فيها ضبط السياق بدقة هو الأهم.

هذه المقالة مبنية على تقرير من OpenAI. اقرأ المقال الأصلي.

Originally published on openai.com

OpenAI يحدّث أنظمة أمان ChatGPT لتتبّع المخاطر عبر المحادثات الحساسة