مسألة القابلية للتحكم
مع أن نماذج التفكير AI أصبحت أكثر قوة، أصبح سؤال واحد محوريًا في أبحاث السلامة: هل يمكن للمطورين توجيه هذه الأنظمة للتحكم أو تغيير أو إخفاء chain-of-thought الخاصة بهم؟ يقدم البحث الجديد من OpenAI إجابة واضحة ومطمئنة — ليس بسهولة، والمقاومة الهيكلية هذه أنباء جيدة حقًا لشفافية AI والإشراف عليها.
اختبر الباحثون ما إذا كان يمكن توجيه نماذج التفكير بسهولة من خلال الفحص والضبط الدقيق والتعليمات لقمع خطوات التفكير التي تقوم بها قبل إنشاء النتائج النهائية. تشير النتائج إلى أن نماذج التفكير لديها سلوكيات تفكير مدمجة بعمق تقاوم الالتغيير المباشر — خاصية لها آثار كبيرة على كيفية بناء ومراقبة أنظمة AI الموثوقة.
تستخدم نماذج التفكير مثل o-series من OpenAI عمليات تفكير موسعة تظهر كمخرجات على غرار المسودة مرئية للمستخدمين. كان السؤال حول ما إذا كان هذا التفكير المرئي يمثل بدقة العملية الحسابية الداخلية للنموذج — وما إذا كان يمكن إخفاء تلك العملية أو التلاعب بها من قبل الجهات الفاعلة السيئة أو الأهداف غير المتوازنة — موضوع نقاش حي في أوساط سلامة AI لسنوات.
ما وجده البحث
حاول الباحثون تدريب إصدارات من نماذج التفكير التي ستخفي سلسلة تفكيرها بالكامل أو تنتج آثار تفكير مضللة مع الوصول إلى إجابات نهائية صحيحة. وجدوا أن محاولات فصل التفكير المرئي عن الحساب الأساسي تميل إلى تقليل أداء النموذج الإجمالية. يبدو أن عملية التفكير وجودة المخرجات مرتبطة ارتباطًا وثيقًا — لا يمكنك بسهولة إزالة واحد بدون إتلاف الآخر.
هذا الاقتران خاصية هيكلية لكيفية تعلم هذه النماذج التفكير أثناء التدريب. تطور أنماط تفكير متكاملة لقدرتها على حل المشاكل، وليست طبقة علوية قابلة للفصل يمكن تجريدها. كانت محاولات قمع هذا التفكير من خلال فحص التعليمات أو الضبط الدقيق الموجه غير ناجحة إلى حد كبير في إنتاج نماذج موثوقة وقادرة وموثوقة بشأن عدم الشفافية حول عملية التفكير.
استكشف البحث أيضًا ما إذا كان يمكن حث النماذج على استخدام التفكير المرئي لخداع المستخدمين — عرض خطوات تفكير معقولة المظهر لكن مزيفة بينما تتبع سرًا منطقًا داخليًا مختلفًا. تم اختبار هذا السيناريو بشكل شامل ووجد صعوبة في الإنتاج الموثوق به في معماريات النماذج الحالية، مما يوفر أدلة على أن chain-of-thought المرئية تتعقب التفكير الداخلي الحقيقي بدرجة ذات مغزى بدلاً من كونها أداء نقي.


