قد يأتي تدريب النماذج لتكون مساعدين مفيدين على حسابٍ ما
تُستخدم نماذج اللغة الكبيرة على نحو متزايد كبدائل للمشاركين البشريين. ويختبرها الباحثون بوصفها بدائل لردود الفعل العامة والسلوك التعليمي وحتى التفاعل السريري. لكن دراسة جديدة واسعة النطاق تشير إلى أن التدريب نفسه الذي يجعل النماذج أكثر فائدة كمساعدين قد يجعلها أقل دقة بوصفها محاكاةً للسلوك البشري.
يعتمد العمل، كما ورد في التقرير المرفق، على Psych-201، وهو مجموعة بيانات بُنيت من تجارب سلوكية تغطي نحو 208,000 مشارك وحوالي 26 مليون استجابة. وقارن الباحثون بين النماذج الأساسية والمتغيرات التي خضعت لتدريب لاحق عبر عائلات Qwen3 وLlama3 وOLMo 3. وكان الاستنتاج المركزي متسقًا: تنبأت النماذج الأساسية بردود البشر بشكل أفضل من نسخ الأسلوب المساعد التي أُنشئت عبر تدريب إضافي.
لماذا تهم هذه النتيجة
صُممت نماذج المساعدين لتكون أكثر أمانًا وفائدةً وتنظيمًا، وغالبًا أكثر وضوحًا في استدلالها. وهذه الصفات قيّمة للاستخدام اليومي للمنتجات. لكنها ليست الشيء نفسه مثل التصرف كإنسان نموذجي في تجربة. فإذا تم ضبط النموذج على الإجابة بوضوح وأدب واتساق محسَّن للمهمة، فقد يبتعد عن التباين والفوضى التي تميز الاستجابات البشرية الحقيقية.
وهذا يجعل الدراسة مهمة لأي مجال يعامل روبوتات الدردشة بوصفها بدائل لمشاركين بشريين. إذا كان الهدف هو محاكاة كيفية إجابة الناس أو اتخاذهم القرارات أو تفاعلهم فعليًا، فقد يكون المساعد الأكثر صقلًا هو الأداة الخاطئة.
تفوقت النماذج الأساسية على النسخ بعد التدريب
يقول التقرير إن النمط ظل قائمًا عبر العائلات والأحجام المختلفة من النماذج. فقد تفوقت النماذج الأساسية، التي تُدرَّب فقط على التنبؤ بالكلمة التالية في النص، على خلفائها بعد التدريب في التنبؤ بالإجابات التي أعطاها البشر فعلًا. وظهر التراجع عبر أهداف ما بعد التدريب الشائعة، وكانت نماذج الاستدلال هي الأكثر انخفاضًا، تلتها النسخ المضبوطة بالتعليمات والمتغيرات الموسعة بصريًا.
وتكتسب هذه النتيجة أهمية خاصة لأنها تتعارض مع حدس شائع في تطوير منتجات الذكاء الاصطناعي: أن الإصدارات الأحدث والأكثر صقلًا يجب أن تكون أفضل على نحو عام. قد تكون أفضل كمساعدين. لكن الدراسة تقول إنها قد تكون أسوأ بوصفها مرايا نفسية.
مجموعة بيانات صُممت للسلوك، لا للمعايير فقط
يبدو أن Psych-201 تمثل جزءًا مهمًا من الإسهام. ويصفها النص المصدر بأنها أكبر بعدة مرات من أي مجموعة سابقة من هذا النوع، مع تشغيلات تجريبية كاملة وبيانات وصفية للمشاركين تشمل العمر والجنسية وإجابات الاستبيانات. وهذا مهم لأن الحكم على مدى الشبه بالإنسان يتطلب قاعدة واسعة من الأدلة السلوكية، لا معيارًا ضيقًا فقط.
ومع مجموعة بيانات بهذا الحجم، يمكن للباحثين مقارنة النماذج مع التوزيعات البشرية عبر مهام عديدة بدلًا من انتقاء أمثلة قليلة يبدو فيها سلوك النموذج معقولًا بالصدفة. ويعزز هذا النطاق الحجة القائلة إن الأمر يتعلق بمقايضة تدريب منهجية، لا بخصوصية نموذج واحد أو تجربة واحدة.
ماذا يعني ذلك لأبحاث الذكاء الاصطناعي واستخدامه في السياسات
النتيجة مزعجة لأن المشاركين المحاكىين جذابون. فهم رخيصون وسريعون وقابلون للتوسع. وقد تميل الحكومات والشركات والباحثون إلى استخدامها للتنبؤ بالاستجابات للسياسات، أو اختبار التدخلات، أو إنشاء نماذج أولية للدراسات قبل الانتقال إلى البشر الحقيقيين. لكن إذا كانت نماذج المساعدين بعد التدريب تشوه السلوك البشري بشكل منهجي، فقد تتحول السهولة إلى ثقة زائفة.
لا تقول الدراسة إن نماذج اللغة عديمة الفائدة في العمل السلوكي. بل تقول إن اختيار النموذج مهم، وأن هدف التصميم مهم. فقد لا يكون النموذج المُحسَّن لمساعدة المستخدم على إنهاء مهمة ما هو الأنسب لمحاكاة كيف يفكر مجتمع ما أو يستجيب. هذه أهداف مختلفة، وقد تتسع الفجوة مع كل جيل من ضبط المساعدين.
العبرة الأوسع
غالبًا ما يُتحدث عن أنظمة الذكاء الاصطناعي كما لو أن القدرة تتحسن على محور واحد. تشير هذه الدراسة إلى واقع أكثر تعقيدًا. فجعْل النموذج أفضل في دورٍ ما قد يضعفه في دورٍ آخر. وقد يصبح المساعد الأكثر اتساقًا أقل شبهًا بالبشر كموضوع تجريبي. وليس ذلك فشلًا في التدريب بقدر ما هو تذكير بأن أهداف التدريب تُشفِّر القيم والمقايضات.
وللباحثين الذين يرغبون في استخدام مشاركين اصطناعيين، فالخلاصة واضحة: لا تفترضوا أن روبوت الدردشة الأكثر صقلًا هو الأكثر واقعية. فقد يكون المساعد الأكثر فائدة في منتج ما هو بالضبط النموذج الخطأ الذي يُعتمد عليه بوصفه بديلًا عن السلوك البشري.
هذه المقالة تستند إلى تقرير The Decoder. اقرأ المقال الأصلي.
Originally published on the-decoder.com

