إزالة الأجسام لم تعد المهمة كاملة

أعلنت Netflix إتاحة إطار ذكاء اصطناعي جديد كمصدر مفتوح يُسمى VOID، وهو اختصار لـ Video Object and Interaction Deletion. في الظاهر، يعالج النظام مشكلة مألوفة في تحرير الفيديو: إزالة جسم من مشهد. لكن ما يجعل المشروع لافتًا هو أنه لا يتوقف عند هذا الحد. ووفقًا للتقرير المرفق، يحاول VOID أيضًا إعادة كتابة العواقب الفيزيائية التي خلّفها الجسم المُزال على بقية المشهد، بما في ذلك التفاعلات مثل الاصطدامات.

هذا الفرق هو ما يجعل الإصدار أكثر أهمية من أداة inpainting تقليدية. فالإزالة التقليدية للأجسام قد تمحو شخصًا أو غرضًا أو عائقًا من إطار واحد، لكن التحرير غالبًا ما ينهار عندما يكون الجسم المفقود قد أثّر سابقًا في الحركة أو التلامس أو ديناميكية المشهد. إذا كان الجسم المُزال قد صدم عنصرًا آخر، أو منع حركة، أو غيّر طريقة تصرف العناصر المحيطة، فإن العالم المرئي لا يعود منطقيًا ما لم تُصلح تلك التأثيرات اللاحقة أيضًا. صُمم VOID لمعالجة هذه المشكلة الأصعب.

كيف بُني النظام

تصف المادة المقدمة VOID على أنه نظام مركب مبني من عدة مكونات ذكاء اصطناعي موجودة. أساسه هو نموذج الانتشار للفيديو CogVideoX من Alibaba. ثم قام باحثو Netflix بضبط النظام باستخدام بيانات اصطناعية من Kubric التابع لـ Google وHUMOTO التابع لـ Adobe لاكتشاف التفاعلات. ويُستخدم Gemini 3 Pro من Google لتحليل المشهد وتحديد المناطق المتأثرة، بينما يتولى SAM2 من Meta تجزئة الأجسام التي يجب إزالتها.

وتستخدم تمريرة ثانية اختيارية التدفق البصري لتصحيح التشوهات الشكلية. هذه الخطوة الإضافية مهمة لأن التلاعب بالفيديو قد يبدو مقنعًا إطارًا بإطار، لكنه يفشل عندما يُفحص استمرارية الحركة عبر الزمن. يمكن لطرق التدفق البصري أن تساعد في الحفاظ على الاتساق الزمني عبر تتبع كيفية تحرك البكسلات أو السمات بين الإطارات.

طُوّر المشروع بواسطة باحثين في Netflix بالتعاون مع INSAIT Sofia University. والشفرة والورقة والعرض التوضيحي متاحة عبر GitHub وarXiv وHugging Face، ويذكر التقرير أن الإصدار يستخدم رخصة Apache 2.0، ما يسمح بالاستخدام التجاري.

لماذا يهم الإتاحة كمصدر مفتوح

إن قرار Netflix إصدار الإطار برخصة متساهلة يغيّر أهمية العمل. فهذا ليس مجرد عرض بحثي داخلي من شركة بث كبرى. إنه سلسلة أدوات يمكن للآخرين فحصها واختبارها وتكييفها وربما تحويلها إلى منتج تجاري.

هذا مهم لأن توليد الفيديو وتحريره يقتربان أكثر فأكثر من بعضهما. فالأنظمة التي كانت تتخصص سابقًا إما في التوليد أو في ما بعد الإنتاج بدأت تفعل الأمرين معًا. يقع VOID في قلب هذا التحول. فهو يستخدم أسس نماذج الانتشار المرتبطة بالذكاء الاصطناعي التوليدي، لكنه موجّه إلى مهمة تحرير محددة ذات آثار إنتاجية واضحة.

كما أن الوصول المفتوح يمنح الباحثين والمطورين معيارًا لتعريف أكثر تقدمًا لتنظيف الفيديو. بدلًا من السؤال عمّا إذا كان يمكن محو الجسم غير المرغوب فيه، يصبح السؤال الأهم هو ما إذا كان المشهد ما يزال يتصرف بشكل مقنع بعد التحرير. هذا معيار أعلى، ومن المرجح أن يؤثر في كيفية تقييم أنظمة تحرير الفيديو المستقبلية.

مشكلة إنتاجية ذات نطاق أوسع

حالة الاستخدام المباشرة واضحة. يحتاج محررو الفيديو وفرق المؤثرات البصرية ومنتجو المحتوى كثيرًا إلى إزالة معدات أو أشخاص عابرين أو شعارات أو عناصر أخرى غير مرغوب فيها من اللقطات. لكن كثيرًا من أصعب عمليات التحرير ليست صعبة لأن الجسم نفسه يصعب إخفاؤه، بل لأنها صعبة لأن الجسم تفاعل مع البيئة.

إذا غيّر عنصر مُزال الظلال، أو قطع الحركة، أو تسبب في اصطدام، أو بدّل موقع الجسم الآخر الذي كان ينبغي أن يكون موجودًا، فيجب إعادة تفسير بقية المشهد لا مجرد إعادة طلائه. وتعرض المادة المقدمة VOID على أنه نظام يحاول فعل ذلك بالضبط، من خلال تحديد المناطق المتأثرة ومراعاة التفاعلات الفيزيائية التي تركها الجسم خلفه.

هذا يوسع النطاق العملي للتحرير بمساعدة الذكاء الاصطناعي. فالأداة التي تستطيع إزالة جسم وإعادة كتابة أثر تفاعله تبدأ في الظهور أقل كمرشح تنظيف وأكثر كمساعد تحرير على مستوى المشهد. ما تزال مقيدة بجودة النموذج والبيانات والتحكم في العيوب، لكن القفزة المفاهيمية مهمة.

ما الذي يكشفه هذا الإصدار عن حالة ذكاء الفيديو الاصطناعي

VOID أيضًا لقطة لحالة بناء أنظمة الذكاء الاصطناعي الحديثة: ليست كنماذج أحادية ضخمة، بل كمسارات متسلسلة. في هذه الحالة، يجري توزيع فهم المشهد والتجزئة والتوليد والتصحيح بين عدة مكونات من منظومات بحثية وشركات مختلفة. والنتيجة نظام مصمم لمهمة ضيقة لكنها صعبة.

من المرجح أن يستمر هذا النمط. فالذكاء الاصطناعي للفيديو أصبح أقل ارتباطًا بنموذج واحد يفعل كل شيء، وأكثر ارتباطًا بتنسيق نماذج متخصصة تتعامل مع أجزاء من المشكلة. ويُظهر التقرير ذلك بوضوح من خلال تسمية الأدوار التي يلعبها CogVideoX وGemini 3 Pro وSAM2 ومصادر البيانات الاصطناعية وتصحيح التدفق البصري.

كما يشير إلى السرعة التي ينتقل بها المجال من الحداثة إلى أدوات تستهدف نقاط الألم في سير العمل. إزالة جسم من الفيديو كانت دائمًا مفيدة. أما إصلاح العالم الذي غيّره ذلك الجسم فهو أكثر طموحًا، وأقرب بكثير إلى نوع القدرة التي قد تغيّر طريقة تنفيذ ما بعد الإنتاج.

الاختبار التالي هو ما إذا كانت المنظومة ستبني عليه

في الوقت الحالي، ينبغي النظر إلى إصدار Netflix بوصفه مساهمة بحثية وتحديًا عمليًا لبقية المجال في آن واحد. إذا حقق VOID أداءً جيدًا بما يكفي في اللقطات الواقعية، فقد يساعد في وضع معيار جديد لإزالة الأجسام من الفيديو. وإذا تعثر خارج الظروف المضبوطة، فسيكون قد أوضح أيضًا ما الذي تحتاج الجيل التالي من الأدوات إلى حله.

في كلتا الحالتين، الاتجاه واضح. يبتعد ذكاء تحرير الفيديو من المهام الطرحية نحو المهام السببية. لا يكفي أن نجعل شيئًا يختفي. يجب أن يجعل النظام المشهد يبدو كما لو أن ذلك الشيء لم يكن موجودًا أصلًا. VOID من Netflix هو محاولة مفتوحة مبكرة لفعل ذلك بالضبط، وهذا ما يجعله أحد أكثر إصدارات أدوات الذكاء الاصطناعي إثارة للاهتمام هذا الأسبوع.

هذا المقال مبني على تقرير The Decoder. اقرأ المقال الأصلي.