لم يعد الحصول على الإجابة الصحيحة كافيًا
هناك موجة متزايدة من الأبحاث في مجال الذكاء الاصطناعي تنقل التركيز من قدرة النموذج على الإجابة عن سؤال إلى قدرته على إثبات مصدر الإجابة. وتشير دراسة جديدة أبرزتها The Decoder إلى أن العديد من الأنظمة الرائدة ما تزال تعاني في هذا الجانب الثاني.
أنشأ باحثون من جامعة بكين ومختبر شنغهاي للذكاء الاصطناعي اختبارًا قياسيًا يُدعى CiteVQA لقياس كل من دقة الإجابة وإسناد المصدر في أسئلة فهم المستندات. وخلاصتهم غير مريحة لكل من يأمل الاعتماد على الذكاء الاصطناعي في السياقات عالية المخاطر: يمكن للنموذج أن يقدم الإجابة الصحيحة ومع ذلك يشير إلى الدليل الخطأ.
ويطلق الفريق على هذا النمط من الفشل اسم “هلوسة الإسناد”. عمليًا، يعني ذلك أن نظام الذكاء الاصطناعي قد يبدو موثوقًا لأن رده النهائي دقيق، بينما لا تبرر الاستشهادات المقدمة لدعمه الإجابة بالفعل.
لماذا تهم جودة الاستشهادات
تُقيِّم الاختبارات القياسية لتحليل المستندات مثل DocVQA و MMLongBench-Doc عادةً الإجابة النهائية فقط. وهذا يترك نقطة عمياء كبيرة. قد يكون النموذج قد استدل من المادة المصدرية، لكنه قد يكون أيضًا قد خمن اعتمادًا على معرفة سابقة أو مطابقة أنماط أو إشارات جزئية في الطلب.
في كثير من الاستخدامات الاستهلاكية يمكن تجاهل هذا الفرق. أما في القانون والطب والتمويل والتدقيق، فلا يمكن ذلك. وتجادل الورقة بأن قابلية التتبع هي ما يجعل مخرجات الذكاء الاصطناعي قابلة للاستخدام منذ البداية. فإذا لم يستطع النظام تحديد الفقرة أو الجدول أو الشكل الذي يدعم إجابته بشكل موثوق، فقد تظل النتيجة المصقولة غير آمنة تشغيليًا.
صُمم CiteVQA لكشف هذه الفجوة مباشرة. لا يكفي رقم الصفحة. يجب على النماذج تحديد مواقع المصدر بدقة داخل المستند، وصولًا إلى العنصر الداعم المحدد.
اختبار أصعب من أسئلة المستندات المعتادة
يتضمن الاختبار القياسي 1,897 سؤالًا عبر 711 ملف PDF من سبعة مجالات موضوعية، منها 451 مستندًا باللغة الإنجليزية و260 باللغة الصينية. ويبلغ متوسط طول المستند 40.6 صفحة، ما يجعل المجموعة أطول بكثير من كثير من الاختبارات القياسية الحالية للمستندات.
وبدلًا من الاعتماد الكامل على الوسم اليدوي، بنى الباحثون خط أنابيب آليًا. تُقسَّم المستندات إلى عناصر منفصلة، ثم تتبع النماذج سلاسل الأدلة. ويختبر النظام ما إذا كان كل مكوّن مقتبس ضروريًا بالفعل عبر إزالة المستندات واحدًا تلو الآخر والتحقق مما إذا كان النموذج لا يزال قادرًا على الإجابة. وإذا لم يكن قادرًا، يُعد ذلك الدليل أساسيًا.
المقياس الأساسي هو الدقة المنسوبة الصارمة. ووفقًا لهذا التقييم، لا يحصل النموذج على نقطة إلا عندما ينجح الجزآن معًا: تكون الإجابة صحيحة، ويقع الاستشهاد على المادة الداعمة الصحيحة. أما الإجابة الصحيحة المقترنة باستشهاد خاطئ فتحصل على صفر.
النماذج الأفضل ما زالت تخسر كثيرًا
تم تقييم عشرين نموذجًا حاليًا. حصل أفضل نظام أداءً، Gemini-3.1-Pro-Preview، على 76 من 100 في المقياس الصارم. وهذه نتيجة قوية نسبيًا، لكنها ما تزال تترك فجوة كبيرة بين أفضل نتيجة متاحة والإسناد الموثوق القريب من الكمال.
كما كشف الاختبار القياسي عن فرق ملحوظ بين جودة الإجابة وجودة الدليل. ووفقًا للتقرير، حصل GPT-5.4 على 87.1 في الأداء الخام للإجابة، لكن هذا الرقم هبط إلى 59 عندما أصبح الاستشهاد الصحيح مطلوبًا. وبعبارة أخرى، كان النموذج غالبًا يعرف ماذا يقول من دون أن يُظهر باستمرار أين جاءت الإجابة من داخل المستند.
أما الأنظمة مفتوحة المصدر فكان أداؤها أسوأ بكثير في النتائج المعلنة. وقد بلغ Qwen3-VL-235B-A22B، الموصوف بأنه أقوى نموذج مجاني متاح في المقارنة، 22.5. أما النماذج المفتوحة الأصغر فكانت في الغالب دون 10. ويصف الباحثون هذا المستوى من الأداء بأنه شديد الخطورة للصناعات الخاضعة للتنظيم.
العثور على الصفحة الصحيحة ما يزال عقبة كبيرة
إحدى أوضح رسائل الاختبار هي أن العديد من النماذج تواجه صعوبة حتى قبل بدء مهمة الاستشهاد الأكثر دقة. فهي غالبًا تفشل في تحديد الصفحة الصحيحة، ما يجعل الإسناد الدقيق على مستوى الفقرة أو الشكل أكثر صعوبة.
وهذا مهم لأن المستخدمين غالبًا ما يفسرون الاستشهادات على أنها ميزة أمان مدمجة. في الواقع، قد يخفي تنسيق الاستشهاد خطوة استرجاع ضعيفة. وقد يبدو النظام الذي يرفق مراجع تبدو كأدلة مع الرد أكثر موثوقية من نظام يجيب من دون مراجع، حتى لو كانت الأدلة خاطئة.
ويشير CiteVQA إلى أن على الصناعة أن تكون أكثر حذرًا في التعامل مع المخرجات المرتبطة بالمصادر على أنها موثوقة بطبيعتها. يجب قياس الإسناد، لا افتراضه.
اختبار معياري للموثوقية العملية
تكمن أهمية الدراسة أقل في إعلان فائز وأكثر في إعادة تعريف الهدف. فإذا كان سيُستخدم الذكاء الاصطناعي في القراءة المهنية أو مراجعة الامتثال أو العناية الواجبة أو المساعدة القائمة على الأدلة، فلا يمكن أن يتوقف المعيار عند الملخصات السلسة والإجابات الصحيحة غالبًا.
ما يهم هو ما إذا كان النموذج يستطيع استرجاع الدعم الدقيق الذي يدّعي أنه يستخدمه. ويجعل الاختبار هذا الأمر مرئيًا وقابلًا للقياس. كما يُظهر أن الأنظمة الحالية، بما فيها الأنظمة المتقدمة، ما تزال غير متسقة في هذا الجانب.
هذا لا يعني أن الذكاء الاصطناعي الخاص بالمستندات غير قابل للاستخدام. لكنه يعني أن قرارات النشر يجب أن تميز بين “الإجابة الجيدة” و“الاستناد الجيد”. ويعامل CiteVQA هاتين القدرتين باعتبارهما منفصلتين، وتشير النتائج إلى أن الثانية ما تزال متأخرة.
بالنسبة للمشترين من الشركات والجهات التنظيمية والفرق التي تدمج الذكاء الاصطناعي في سير العمل البحثي، فهذه على الأرجح هي الخلاصة الرئيسية. قد لا تكون الجبهة التنافسية التالية في ذكاء المستندات هي إنتاج نصوص أكثر ثقة بالنفس، بل إثبات، بدقة، أن النص يستند إلى السطر الصحيح في المصدر الصحيح.
تعتمد هذه المقالة على تغطية The Decoder. اقرأ المقال الأصلي.
Originally published on the-decoder.com



