أصبح فيديو الذكاء الاصطناعي أكثر إقناعًا، لكنه ليس بالضرورة أكثر اتساقًا مع الواقع

يمكن للجيل الأحدث من أنظمة فيديو الذكاء الاصطناعي إنتاج مقاطع تبدو أكثر صقلًا على نحو متزايد، مع حركة أكثر سلاسة، وإضاءة أقوى، وملمس أكثر واقعية من النماذج السابقة. لكن معيارًا جديدًا من باحثين في جامعة تسينغهوا يجادل بأن الجودة البصرية تخفي قيدًا أعمق: كثير من الأنظمة لا تزال لا تفهم كيف يُفترض أن يعمل العالم.

المعيار، الذي يحمل اسم WorldReasonBench، صُمم لقياس ما إذا كان النموذج قادرًا على مواصلة مشهد بطريقة تظل معقولة من الناحية الفيزيائية والاجتماعية والمنطقية والمعلوماتية. هذا سؤال مختلف عن كون الفيديو يبدو جيدًا فحسب. ووفقًا لإطار الباحثين، فإن الواقعية في المظهر ليست هي نفسها الواقعية في الاستدلال.

هذا التمييز مهم لأن كثيرًا من الأمثلة البارزة في الفيديو التوليدي تُقيَّم أساسًا من خلال الأسلوب والتماسك عند النظرة الأولى. قد يبدو المقطع سينمائيًا وانسيابيًا، ومع ذلك يظل ينتهك توقعات عادية تتعلق بالجاذبية، وسلوك الأجسام، وتفاعل البشر، أو علاقة السبب والنتيجة. صُمم WorldReasonBench لكشف هذه الفجوة تحديدًا.

كيف يختبر المعيار فهم العالم

بدلًا من تقييم جودة الصورة، يبدأ المعيار من مشهد ويطلب من النموذج أن يمدّه بطريقة منطقية. يسلط المقال الأصلي الضوء على مثال بسيط: تفاحة على غصن، يتبعها أمر بجعلها تسقط. قد يُنتج النظام تسلسلًا جميلًا، ومع ذلك يفشل في المهمة إذا تحركت التفاحة إلى الأعلى، أو تصرفت كأنها بالون، أو سقطت بطريقة غير معقولة.

هذه هي المشكلة الأساسية التي يحاول المعيار عزلها. يمكن لنتيجة مصقولة أن تحصل على درجة جيدة في الجماليات التقليدية بينما تفشل في منطق الحدث نفسه. لذلك يقسم WorldReasonBench التقييم إلى أربع مجالات استدلال و22 فئة فرعية.

  • معرفة العالم، بما في ذلك الفيزياء والطقس والمعايير الثقافية
  • مشاهد تتمحور حول الإنسان، مثل التعامل مع الأشياء والتفاعل الاجتماعي
  • الاستدلال المنطقي، بما في ذلك الرياضيات والهندسة والتجارب العلمية
  • الاستدلال القائم على المعلومات، مثل قراءة البيانات والمخططات

وفقًا للمادة المصدر، يضم المعيار نحو 400 حالة اختبار. كما قرن الباحثون ذلك مع WorldRewardBench، وهو مجموعة بيانات تفضيلات تضم نحو 6,000 مقارنة فيديو مرتبة بواسطة مُقيِّمين مدرَّبين. والمقصود من مجموعة البيانات الثانية هو المساعدة في مقارنة النماذج وجهًا لوجه، بدلًا من الاقتصار على قواعد تقييم مجردة.

نظام تقييم على مرحلتين للمعقولية

تستخدم عملية التقييم طبقتين. أولًا، يطرح أسلوب واعٍ بالعملية أسئلة منظمة لتحديد ما إذا كان الفيديو يصل إلى الحالة النهائية الصحيحة وما إذا كان يصل إليها بطريقة معقولة. ثم تأتي مرحلة ثانية تمنح درجات لثلاث سمات أوسع: جودة الاستدلال، والاتساق الزمني، والجماليات البصرية.

هذا التصميم لافت لأنه لا يتخلى عن جودة العرض. بل يضع المظهر في مكانه الصحيح. فما يزال المعيار يعترف بأن نموذج الفيديو المفيد ينبغي أن يكون مقنعًا بصريًا، لكنه يتعامل مع الجماليات باعتبارها جزءًا واحدًا فقط من النتيجة، لا القصة بأكملها.

وبالنسبة إلى المجال، يمثل ذلك تحولًا مهمًا. ففي توليد الصور والفيديو، غالبًا ما يُقدَّم التقدم عبر عروض يسهل الإعجاب بها لكن يصعب تدقيقها. أما المعيار الذي يركز على النتائج بدلًا من الجودة السطحية فيضع معيارًا أكثر صرامة، خاصة في حالات الاستخدام التي قد يحتاج فيها الفيديو المولَّد إلى تصوير التعليمات أو التجارب أو الرسوم البيانية أو أحداث العالم الحقيقي.

الأنظمة التجارية تتصدر، لكن لا أحد قريب من الإتقان

اختبر الباحثون خمسة أنظمة تجارية وستة نماذج مفتوحة المصدر. وشملت المجموعة التجارية Sora 2 وKling وWan 2.6 وSeedance 2.0 وVeo 3.1-Fast. وشملت مجموعة المصدر المفتوح LTX 2.3 وWan 2.2-14B وUniVideo وHunyuanVideo 1.5 وCosmos-Predict 2.5 وLongCat-Video.

في المقياس الأساسي للاستدلال في المعيار، قدّمت النماذج التجارية أداءً أفضل بكثير. ويذكر المصدر أنها سجلت تقريبًا ضعف ما حققته الأنظمة مفتوحة المصدر، من دون أي تداخل إحصائي بين المجموعتين. وتشير هذه النتيجة إلى أن أقوى النماذج الاحتكارية لا تزال متقدمة بوضوح عندما تتطلب المهام أكثر من مجرد المظهر.

ومع ذلك، فإن الاستنتاج الأوسع ليس أن الأنظمة التجارية حلت مشكلة الاستدلال في الفيديو. فالمقال يقول إن المنطق ما يزال يربك كل نموذج جرى اختباره. أمثلة مثل قطع الدومينو الساقطة، وآلة المخلب، ودائرة كهربائية بسيطة كانت كافية لكشف الإخفاقات. وبعبارة أخرى، توجد منتجات أفضل، لكن الفهم المتين للعالم لا يزال غائبًا على مستوى المنظومة كلها.

هذه نتيجة ذات معنى لأنها تتعارض مع افتراض شائع في الذكاء الاصطناعي التوليدي: أن النتائج الأكثر واقعية تعني بالضرورة قدرة أعمق. ويشير WorldReasonBench إلى أن العكس قد يكون صحيحًا في كثير من الأحيان. فمع تحسن النماذج في الأسلوب، تصبح إخفاقاتها المتبقية أصعب على المراقبين العاديين ملاحظتها، حتى عندما تكون هذه الإخفاقات مهمة في السياقات العملية.

لماذا يهم هذا أبعد من تصنيفات المعايير

يأتي هذا المعيار في وقت تُقيَّم فيه أدوات فيديو الذكاء الاصطناعي ليس فقط كمحركات للترفيه، بل كنظم قد تدعم مستقبلًا التعليم والتصميم والمحاكاة والتواصل وإنتاج المحتوى الآلي. وفي تلك البيئات، لا تكون المعقولية اختيارية. فالنموذج الذي ينتج تصويرًا جميلًا لكنه خاطئ للحركة أو القياس أو التفاعل ليس مجرد نموذج غير كامل، بل قد يكون مضللًا.

لذلك يشير WorldReasonBench إلى تحدٍ أوسع في الذكاء الاصطناعي متعدد الوسائط. فإذا لم تتمكن الأنظمة من تمثيل السلوك الفيزيائي العادي أو البنية المنطقية الأساسية بشكل موثوق، فلن يجعلها تحسين الإخراج وحده جديرة بالثقة. لا يجادل البحث بأن الجودة البصرية غير مهمة، بل يقول إن المجال كافأها أكثر من اللازم مقارنة بالاستدلال.

وهذا يجعل المعيار مفيدًا حتى لو تغيرت ترتيباته الدقيقة بمرور الوقت. فهو يعرّف سؤالًا أكثر تطلبًا لتوليد الفيديو: ليس هل يبدو المقطع حقيقيًا، بل هل يتصرف كما لو كان ينتمي إلى العالم الحقيقي.

حتى الآن، الجواب مختلط في أفضل الأحوال. فالأنظمة التجارية الرائدة تتقدم بوضوح، لكن الرسالة الأساسية للمعيار أشد وضوحًا من أي نتيجة في قائمة الترتيب. يمكن لفيديو الذكاء الاصطناعي الآن إنتاج مشاهد مذهلة، لكنه لا يزال يعاني في فهم المشاهد التي يخلقها.

هذا المقال يستند إلى تغطية The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com