دراسة ByteDance: تدريب السؤال والجواب يتفوق على OCR في الذكاء الاصطناعي للمستندات الطويلة

وصفة مختلفة للذكاء الاصطناعي متعدد الوسائط ذي السياق الطويل

مع تسابق أنظمة الذكاء الاصطناعي متعددة الوسائط نحو نوافذ سياق أكبر فأكبر، يبقى سؤال واحد غامضًا على نحو لافت: ما نوع التدريب الذي يعلّم النموذج فعلاً استخدام هذا السياق جيدًا؟ تشير دراسة جديدة لباحثين من ByteDance Seed وجامعة هونغ كونغ للعلوم والتكنولوجيا إلى أن حدسًا شائعًا قد يكون خاطئًا. فإذا كان الهدف هو جعل النموذج يفهم المستندات الطويلة الغنية بالصور، فإن تكليفه بنسخ الكثير من النصوص ليس الطريق الأفضل. ووفقًا للتجارب التي وصفها The Decoder، فقد يكون ذلك مضادًا للإنتاجية.

تركز الدراسة على نموذج يسمى MMProLong، مبني على الأساس المفتوح Qwen2.5-VL من Alibaba. ويذكر الباحثون أن النظام تفوق على منافسين أكبر بكثير في مهام المستندات الطويلة، حتى في الحالات التي كانت فيها المستندات أطول بكثير من تلك التي رآها أثناء التدريب. والنتيجة الأساسية لا تتعلق بالحجم فقط، بل بالإشراف: فقد تعلّمت النماذج أكثر من خلال طرح أسئلة عليها حول مستند كامل مقارنة بتدريبها على التعرف إلى النص الموجود في صفحاته وإعادة إنتاجه.

لماذا يفشل التدريب الشبيه بالتعرّف البصري على النص

للوهلة الأولى، يبدو التعرف على النص هدفًا طبيعيًا لتدريب المستندات الطويلة. فإذا استطاع النموذج قراءة كل صفحة، فمن المفترض نظريًا أن يعرف ما يحتويه المستند. لكن الدراسة تجادل بأن التعرف ليس هو نفسه الاسترجاع أو الاستدلال. فالنموذج الذي يتعلم نسخ محتوى الصفحة قد يصبح أفضل في استخراج النص المحلي دون أن يتعلم كيفية تحديد المعلومات ذات الصلة عبر تسلسل طويل من الصفحات عندما يطرح المستخدم سؤالًا محددًا.

وقارن الباحثون بين نهجين بشكل مباشر. في إعداد واحد، كان النموذج يجري التعرف على الحروف عبر جميع الصفحات أو عبر صفحات مختارة، بينما تبقى صفحات أخرى في السياق كعناصر تشتيت. وفي إعداد آخر، استُخدم نموذج منفصل من ByteDance، وهو Seed 2.0، لتوليد أزواج أسئلة وأجوبة لأقسام المستند. ثم قدّم التدريب السؤال إلى جانب المستند الكامل، ما أجبر النموذج على البحث عن الإجابة داخل سياق أطول.

والنتيجة، بحسب التقرير، كانت حاسمة. فقد أدى تدريب التعرف النصي البحت إلى تدهور الأداء مقارنةً بنقطة البداية. أما تدريب السؤال والجواب فحقق مكاسب واضحة.

تعليم الاسترجاع، لا القراءة فقط

هذا التمييز مهم لأن التحدي العملي في الذكاء الاصطناعي للمستندات الطويلة نادرًا ما يكون مجرد قابلية القراءة. فالنماذج الحديثة تمتلك بالفعل طرقًا متعددة لقراءة النص من الصور أو الصفحات المعروضة. أما المشكلة الأصعب فهي تحديد ما يهم داخل سياق كبير، والعثور عليه بكفاءة، وربطه بطلب المستخدم.

يبدو أن الإشراف بأسلوب السؤال والجواب أكثر انسجامًا مع هذا التحدي. فبدلًا من مكافأة النموذج على إعادة إنتاج كل شيء، فإنه يكافئه على العثور على الشيء الصحيح. في التقارير الطويلة وملفات PDF والعروض التقديمية أو الأدلة التقنية، يعني ذلك تعلم التنقل عبر الضجيج، وتجاهل الصفحات غير ذات الصلة، وتحديد الجزء من السياق الذي يجيب فعلاً عن الطلب.

والدلالة الأوسع هي أن قدرة السياق الطويل ليست مجرد مسألة عتاد أو ميزانية رموز. إنها أيضًا مشكلة في تصميم الهدف التدريبي. فنافذة سياق بمليون رمز لا تكون مفيدة تلقائيًا إذا لم يُدرَّب النموذج على كيفية استخدامها.

كيف تعمل سلسلة التدريب

يصف The Decoder سلسلة تركيبية تجمع بين تحليل OCR، وتوليد الأسئلة تلقائيًا، وإعادة التضمين لبناء أمثلة تدريبية ذات سياق طويل من مستندات حقيقية. لا يزال OCR يلعب دورًا، لكن ليس بوصفه الهدف النهائي. بل يساعد في تنظيم المادة المصدرية بحيث يتمكن نظام منفصل من توليد أزواج أسئلة وأجوبة ذات معنى ومتصلة بأقسام المستند.

وتكتسب هذه السلسلة أهمية لأن الإشراف عالي الجودة للمستندات الطويلة مكلف جدًا إذا أُنشئ يدويًا. ومن خلال أتمتة إنتاج بيانات السؤال والجواب، يمكن للباحثين توسيع أمثلة التدريب مع الحفاظ على توافق المهمة مع ما يريده المستخدمون النهائيون فعلًا من النموذج: إجابات تستند إلى مدخل طويل، لا نسخة حرفية خام منه.

نموذج صغير، وإشارة كبيرة

أحد أكثر ادعاءات الدراسة أهمية هو أن نموذجًا بمعاملات تصل إلى 7 مليارات يمكنه التفوق على منافسين أكبر بكثير في هذا النوع من المهام. وإذا تعمم هذا النتيجة، فهذا يشير إلى أن تصميم التدريب قد يضاهي أو حتى يتجاوز التوسع القائم على القوة الخالصة من حيث الأهمية في بعض أعباء العمل متعددة الوسائط.

وهذا مهم استراتيجيًا في قطاع الذكاء الاصطناعي كله. فمختبرات مثل OpenAI وGoogle وAlibaba تروّج لنوافذ سياق كبيرة جدًا، لكن التقارير التقنية العامة غالبًا لا تقول الكثير عن تكوين بيانات تدريب السياق الطويل. وتضغط دراسة ByteDance على فكرة أن حجم نافذة السياق وحده ليس مؤشرًا مفيدًا على القدرة. فقد يقبل النموذج مدخلات هائلة ومع ذلك يفشل في استخدامها جيدًا إذا كان هدفه التدريبي قد ركز على المهارات الخاطئة.

لماذا يهم هذا الذكاء الاصطناعي المؤسسي

فهم المستندات الطويلة ليس حالة هامشية أكاديمية. فالشركات تريد نماذج يمكنها العمل عبر العقود، والعروض التقديمية، والتقارير، وقواعد المعرفة، والأدلة التقنية، وأرشيفات الأبحاث. وفي كثير من هذه الحالات، يكون استخراج كل حرف أقل قيمة من الإجابة بدقة عن سؤال محدد مع الاستشهاد بالجزء الصحيح.

إذا كان الإشراف المعتمد بكثافة على OCR يضعف أداء السياق الطويل، فقد تحتاج فرق المنتجات إلى إعادة التفكير في كيفية ضبط الأنظمة متعددة الوسائط للاستخدام التجاري. كما توحي النتائج بأن المعايير المرجعية ينبغي أن تفصل بعناية أكبر بين القدرة على القراءة والقدرة على الاستدلال على المستندات. فالنموذج الذي يبدو قويًا في التعرف على مستوى الصفحة قد يفشل عندما تتوزع المعلومات عبر عشرات الصفحات أو مئاتها.

نظرة أكثر نضجًا إلى السياق

تسهم الدراسة في تحول متزايد في كيفية الحديث عن قدرات الذكاء الاصطناعي. فما زالت نوافذ السياق الأكبر مهمة، لكن النقاش ينتقل من السعة إلى الاستفادة. المهم ليس مقدار ما يستطيع النموذج حمله، بل مدى كفاءته في البحث داخل هذا الفضاء وترتيب الأولويات والاستدلال ضمنه.

ومن خلال إظهار أن تدريب السؤال والجواب يمكن أن يتفوق على الأساليب الثقيلة بالنسخ النصي، بل ويعكس آثارها أحيانًا، يقدم الباحثون مبدأ تصميميًا ملموسًا لمطوري الذكاء الاصطناعي متعدد الوسائط. لا تُكتسب ذكاءات السياق الطويل بنسخ كل ما يقع تحت البصر، بل بالممارسة المتكررة على العثور على ما يهم.

قد يبدو ذلك بديهيًا بأثر رجعي. لكن في تدريب النماذج، لا تصل الأفكار البديهية غالبًا إلا بعد أن تثبت أدلة كثيرة ومكلفة أن العادة القديمة كانت خاطئة.

يعتمد هذا المقال على تغطية The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

دراسة من ByteDance ترى أن الذكاء الاصطناعي يتعلم من الأسئلة أفضل من نسخ النصوص في المستندات الطويلة