ऑब्जेक्ट हटाना अब पूरा काम नहीं रह गया है

Netflix ने VOID नाम का एक नया AI फ्रेमवर्क open source किया है, जिसका पूरा नाम Video Object and Interaction Deletion है। सतह पर, यह सिस्टम वीडियो संपादन की एक परिचित समस्या हल करता है: किसी दृश्य से एक ऑब्जेक्ट हटाना। लेकिन इस परियोजना को खास बनाता है यह कि यह यहीं नहीं रुकता। दिए गए रिपोर्ट के अनुसार, VOID उस भौतिक परिणाम को भी फिर से लिखने की कोशिश करता है जो हटाए गए ऑब्जेक्ट ने दृश्य के बाकी हिस्से पर छोड़ा था, जिसमें टक्कर जैसी अंतःक्रियाएँ शामिल हैं।

यही अंतर इस रिलीज़ को एक सामान्य inpainting टूल से कहीं अधिक महत्वपूर्ण बनाता है। पारंपरिक ऑब्जेक्ट हटाने में किसी व्यक्ति, प्रॉप या रुकावट को फ्रेम से मिटाया जा सकता है, लेकिन जब गायब ऑब्जेक्ट ने पहले गति, संपर्क या दृश्य की गतिशीलता को प्रभावित किया हो, तो संपादन अक्सर बिखर जाता है। अगर हटाए गए ऑब्जेक्ट ने किसी दूसरे आइटम को धक्का दिया, मूवमेंट रोका, या आसपास की चीज़ों के व्यवहार को बदल दिया, तो उन downstream effects को भी ठीक किए बिना दृश्य दुनिया अर्थहीन हो जाती है। VOID इसी कठिन समस्या के लिए बनाया गया है।

सिस्टम कैसे बनाया गया है

दिए गए विवरण में VOID को कई मौजूदा AI घटकों पर बना एक composite system बताया गया है। इसका आधार Alibaba का video diffusion model CogVideoX है। फिर Netflix शोधकर्ताओं ने interaction detection के लिए Google के Kubric और Adobe के HUMOTO से synthetic data का उपयोग करके सिस्टम को fine-tune किया। Google का Gemini 3 Pro scene का विश्लेषण करके प्रभावित क्षेत्रों की पहचान करता है, जबकि Meta का SAM2 हटाए जाने वाले ऑब्जेक्ट्स की segmentation संभालता है।

एक वैकल्पिक दूसरा pass shape distortion को ठीक करने के लिए optical flow का उपयोग करता है। यह अतिरिक्त कदम महत्वपूर्ण है क्योंकि वीडियो manipulation frame by frame believable लग सकती है, लेकिन समय के साथ motion continuity की जाँच करने पर विफल हो जाती है। Optical flow methods यह ट्रैक करके temporal consistency बनाए रखने में मदद कर सकते हैं कि pixels या features को frames के बीच कैसे आगे बढ़ना चाहिए।

यह परियोजना Netflix शोधकर्ताओं ने INSAIT Sofia University के साथ मिलकर विकसित की। कोड, paper, और demo GitHub, arXiv, और Hugging Face पर उपलब्ध हैं, और रिपोर्ट कहती है कि रिलीज़ Apache 2.0 license के तहत है, जिससे commercial use की अनुमति मिलती है।

यह open source क्यों महत्वपूर्ण है

Netflix का इस framework को permissive license के तहत जारी करना इस काम का महत्व बदल देता है। यह किसी बड़े streaming company का सिर्फ़ एक internal research demo नहीं है। यह एक ऐसा toolkit है जिसे दूसरे लोग inspect, test, adapt, और संभवतः commercialize कर सकते हैं।

यह इसलिए महत्वपूर्ण है क्योंकि video generation और editing लगातार एक-दूसरे के करीब आ रहे हैं। जो सिस्टम पहले synthesis या post-production में विशेषज्ञ थे, वे अब दोनों करने लगे हैं। VOID इसी बदलाव के बीच में है। यह generative AI से जुड़े diffusion-model foundations का उपयोग करता है, लेकिन इसे एक ठोस editing task के लिए बनाया गया है जिसका production पर साफ़ असर है।

Open access researchers और developers को video cleanup की एक अधिक उन्नत परिभाषा के लिए benchmark भी देता है। यह पूछने के बजाय कि कोई अवांछित ऑब्जेक्ट हटाया जा सकता है या नहीं, अधिक प्रासंगिक सवाल यह बन जाता है कि संपादन के बाद दृश्य अभी भी विश्वसनीय रूप से व्यवहार करता है या नहीं। यह एक ऊँचा मानदंड है, और यह भविष्य के video-editing systems के मूल्यांकन को प्रभावित करेगा।

एक production समस्या जिसका दायरा बड़ा है

तत्काल उपयोग स्पष्ट है। Video editors, VFX teams, और content producers को अक्सर footage से equipment, राहगीर, logos, या अन्य अवांछित तत्व हटाने पड़ते हैं। लेकिन सबसे कठिन edits इसलिए कठिन नहीं होते कि ऑब्जेक्ट को छिपाना मुश्किल है। वे इसलिए कठिन होते हैं क्योंकि ऑब्जेक्ट ने environment के साथ interaction किया होता है।

अगर कोई हटाया गया item shadows बदल दे, movement रोक दे, collision पैदा करे, या किसी दूसरे object की expected position बदल दे, तो बाकी scene को सिर्फ़ repaint नहीं बल्कि reinterpret करना पड़ता है। दिए गए रिपोर्ट VOID को एक ऐसे सिस्टम के रूप में रखती है जो exactly ऐसा करने की कोशिश करता है, affected areas को पहचानकर और पीछे छूटे physical interactions को ध्यान में रखकर।

यह AI-assisted editing के practical scope को बढ़ाता है। ऐसा tool जो किसी ऑब्जेक्ट को हटाकर उसकी interaction की evidence को भी rewrite कर सके, वह cleanup filter से कम और scene-level editing assistant से अधिक लगता है। यह अभी भी model quality, data, और artifact control से सीमित है, लेकिन conceptually यह महत्वपूर्ण कदम है।

यह रिलीज़ video AI की स्थिति के बारे में क्या बताती है

VOID इस बात की भी तस्वीर है कि modern AI systems कैसे बनाए जा रहे हैं: एकल monolithic models के रूप में नहीं, बल्कि pipelines के रूप में। यहाँ scene understanding, segmentation, generation, और correction अलग-अलग research और corporate ecosystems के कई components में बँटे हैं। परिणाम एक ऐसा सिस्टम है जो एक संकीर्ण लेकिन कठिन task के लिए बनाया गया है।

यह pattern आगे भी जारी रहने की संभावना है। Video AI अब इस सवाल पर कम और इस पर अधिक केंद्रित होता जा रहा है कि specialized models को कैसे coordinate किया जाए जो समस्या के अलग-अलग हिस्सों को संभालते हैं। रिपोर्ट CogVideoX, Gemini 3 Pro, SAM2, synthetic-data sources, और optical-flow correction की भूमिकाएँ नाम देकर इसे खास तौर पर स्पष्ट करती है।

यह भी दिखाता है कि क्षेत्र कितनी तेज़ी से novelty से workflow pain points को निशाना बनाने वाले tools की ओर बढ़ रहा है। Video से किसी ऑब्जेक्ट को हटाना हमेशा उपयोगी रहा है। लेकिन उस ऑब्जेक्ट द्वारा बदली गई दुनिया को ठीक करना अधिक महत्वाकांक्षी है, और post-production कैसे किया जाता है, उसे बदलने वाली क्षमता के और करीब है।

अगली परीक्षा यह है कि ecosystem इस पर निर्माण करता है या नहीं

फिलहाल Netflix की यह रिलीज़ research contribution और बाकी क्षेत्र के लिए practical challenge दोनों के रूप में पढ़ी जानी चाहिए। अगर VOID real-world footage में पर्याप्त अच्छा प्रदर्शन करता है, तो यह video object removal के लिए एक नया baseline तय करने में मदद कर सकता है। अगर यह नियंत्रित परिस्थितियों के बाहर संघर्ष करता है, तब भी यह स्पष्ट कर देगा कि अगली पीढ़ी के tools को क्या हल करना होगा।

किसी भी स्थिति में दिशा साफ़ है। Video-editing AI subtractive tasks से causal tasks की ओर बढ़ रहा है। सिर्फ़ किसी चीज़ को गायब कर देना पर्याप्त नहीं है। सिस्टम को दृश्य को ऐसा दिखाना होगा जैसे वह चीज़ वहाँ कभी थी ही नहीं। Netflix का VOID ऐसा करने का एक शुरुआती open-source प्रयास है, और यही इसे इस हफ्ते के सबसे दिलचस्प AI tool releases में से एक बनाता है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.