Netflix ने वीडियो ऑब्जेक्ट हटाने और interaction editing के लिए VOID open source किया

ऑब्जेक्ट हटाना अब पूरा काम नहीं रह गया है

Netflix ने VOID नाम का एक नया AI फ्रेमवर्क open source किया है, जिसका पूरा नाम Video Object and Interaction Deletion है। सतह पर, यह सिस्टम वीडियो संपादन की एक परिचित समस्या हल करता है: किसी दृश्य से एक ऑब्जेक्ट हटाना। लेकिन इस परियोजना को खास बनाता है यह कि यह यहीं नहीं रुकता। दिए गए रिपोर्ट के अनुसार, VOID उस भौतिक परिणाम को भी फिर से लिखने की कोशिश करता है जो हटाए गए ऑब्जेक्ट ने दृश्य के बाकी हिस्से पर छोड़ा था, जिसमें टक्कर जैसी अंतःक्रियाएँ शामिल हैं।

यही अंतर इस रिलीज़ को एक सामान्य inpainting टूल से कहीं अधिक महत्वपूर्ण बनाता है। पारंपरिक ऑब्जेक्ट हटाने में किसी व्यक्ति, प्रॉप या रुकावट को फ्रेम से मिटाया जा सकता है, लेकिन जब गायब ऑब्जेक्ट ने पहले गति, संपर्क या दृश्य की गतिशीलता को प्रभावित किया हो, तो संपादन अक्सर बिखर जाता है। अगर हटाए गए ऑब्जेक्ट ने किसी दूसरे आइटम को धक्का दिया, मूवमेंट रोका, या आसपास की चीज़ों के व्यवहार को बदल दिया, तो उन downstream effects को भी ठीक किए बिना दृश्य दुनिया अर्थहीन हो जाती है। VOID इसी कठिन समस्या के लिए बनाया गया है।

सिस्टम कैसे बनाया गया है

दिए गए विवरण में VOID को कई मौजूदा AI घटकों पर बना एक composite system बताया गया है। इसका आधार Alibaba का video diffusion model CogVideoX है। फिर Netflix शोधकर्ताओं ने interaction detection के लिए Google के Kubric और Adobe के HUMOTO से synthetic data का उपयोग करके सिस्टम को fine-tune किया। Google का Gemini 3 Pro scene का विश्लेषण करके प्रभावित क्षेत्रों की पहचान करता है, जबकि Meta का SAM2 हटाए जाने वाले ऑब्जेक्ट्स की segmentation संभालता है।

एक वैकल्पिक दूसरा pass shape distortion को ठीक करने के लिए optical flow का उपयोग करता है। यह अतिरिक्त कदम महत्वपूर्ण है क्योंकि वीडियो manipulation frame by frame believable लग सकती है, लेकिन समय के साथ motion continuity की जाँच करने पर विफल हो जाती है। Optical flow methods यह ट्रैक करके temporal consistency बनाए रखने में मदद कर सकते हैं कि pixels या features को frames के बीच कैसे आगे बढ़ना चाहिए।

यह परियोजना Netflix शोधकर्ताओं ने INSAIT Sofia University के साथ मिलकर विकसित की। कोड, paper, और demo GitHub, arXiv, और Hugging Face पर उपलब्ध हैं, और रिपोर्ट कहती है कि रिलीज़ Apache 2.0 license के तहत है, जिससे commercial use की अनुमति मिलती है।

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAI ने इन्फ्रास्ट्रक्चर काम और लंबे उपभोक्ता विजन के इर्द-गिर्द रोबोटिक्स को फिर से खड़ा किया है

OpenAI ने अपनी रोबोटिक्स टीम को फिर से बनाया है, शुरुआत इन्फ्रास्ट्रक्चर कार्यों से करते हुए, जबकि CEO Sam Altman एक लंबे समय के लक्ष्य के रूप में सभी के लिए निजी रोबोटों की बात कर रहे हैं।

Read article

यह open source क्यों महत्वपूर्ण है

Netflix का इस framework को permissive license के तहत जारी करना इस काम का महत्व बदल देता है। यह किसी बड़े streaming company का सिर्फ़ एक internal research demo नहीं है। यह एक ऐसा toolkit है जिसे दूसरे लोग inspect, test, adapt, और संभवतः commercialize कर सकते हैं।

यह इसलिए महत्वपूर्ण है क्योंकि video generation और editing लगातार एक-दूसरे के करीब आ रहे हैं। जो सिस्टम पहले synthesis या post-production में विशेषज्ञ थे, वे अब दोनों करने लगे हैं। VOID इसी बदलाव के बीच में है। यह generative AI से जुड़े diffusion-model foundations का उपयोग करता है, लेकिन इसे एक ठोस editing task के लिए बनाया गया है जिसका production पर साफ़ असर है।

Open access researchers और developers को video cleanup की एक अधिक उन्नत परिभाषा के लिए benchmark भी देता है। यह पूछने के बजाय कि कोई अवांछित ऑब्जेक्ट हटाया जा सकता है या नहीं, अधिक प्रासंगिक सवाल यह बन जाता है कि संपादन के बाद दृश्य अभी भी विश्वसनीय रूप से व्यवहार करता है या नहीं। यह एक ऊँचा मानदंड है, और यह भविष्य के video-editing systems के मूल्यांकन को प्रभावित करेगा।

एक production समस्या जिसका दायरा बड़ा है

तत्काल उपयोग स्पष्ट है। Video editors, VFX teams, और content producers को अक्सर footage से equipment, राहगीर, logos, या अन्य अवांछित तत्व हटाने पड़ते हैं। लेकिन सबसे कठिन edits इसलिए कठिन नहीं होते कि ऑब्जेक्ट को छिपाना मुश्किल है। वे इसलिए कठिन होते हैं क्योंकि ऑब्जेक्ट ने environment के साथ interaction किया होता है।

अगर कोई हटाया गया item shadows बदल दे, movement रोक दे, collision पैदा करे, या किसी दूसरे object की expected position बदल दे, तो बाकी scene को सिर्फ़ repaint नहीं बल्कि reinterpret करना पड़ता है। दिए गए रिपोर्ट VOID को एक ऐसे सिस्टम के रूप में रखती है जो exactly ऐसा करने की कोशिश करता है, affected areas को पहचानकर और पीछे छूटे physical interactions को ध्यान में रखकर।

यह AI-assisted editing के practical scope को बढ़ाता है। ऐसा tool जो किसी ऑब्जेक्ट को हटाकर उसकी interaction की evidence को भी rewrite कर सके, वह cleanup filter से कम और scene-level editing assistant से अधिक लगता है। यह अभी भी model quality, data, और artifact control से सीमित है, लेकिन conceptually यह महत्वपूर्ण कदम है।

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

Anthropic के एक अध्ययन में सामाजिक विज्ञान में कोडिंग-एजेंट अपनाने में बड़े अंतर पाए गए, जो लिंग, क्षेत्र, करियर चरण और विश्वविद्यालय रैंक के आधार पर बदलते हैं।

Read article

यह रिलीज़ video AI की स्थिति के बारे में क्या बताती है

VOID इस बात की भी तस्वीर है कि modern AI systems कैसे बनाए जा रहे हैं: एकल monolithic models के रूप में नहीं, बल्कि pipelines के रूप में। यहाँ scene understanding, segmentation, generation, और correction अलग-अलग research और corporate ecosystems के कई components में बँटे हैं। परिणाम एक ऐसा सिस्टम है जो एक संकीर्ण लेकिन कठिन task के लिए बनाया गया है।

यह pattern आगे भी जारी रहने की संभावना है। Video AI अब इस सवाल पर कम और इस पर अधिक केंद्रित होता जा रहा है कि specialized models को कैसे coordinate किया जाए जो समस्या के अलग-अलग हिस्सों को संभालते हैं। रिपोर्ट CogVideoX, Gemini 3 Pro, SAM2, synthetic-data sources, और optical-flow correction की भूमिकाएँ नाम देकर इसे खास तौर पर स्पष्ट करती है।

यह भी दिखाता है कि क्षेत्र कितनी तेज़ी से novelty से workflow pain points को निशाना बनाने वाले tools की ओर बढ़ रहा है। Video से किसी ऑब्जेक्ट को हटाना हमेशा उपयोगी रहा है। लेकिन उस ऑब्जेक्ट द्वारा बदली गई दुनिया को ठीक करना अधिक महत्वाकांक्षी है, और post-production कैसे किया जाता है, उसे बदलने वाली क्षमता के और करीब है।

अगली परीक्षा यह है कि ecosystem इस पर निर्माण करता है या नहीं

फिलहाल Netflix की यह रिलीज़ research contribution और बाकी क्षेत्र के लिए practical challenge दोनों के रूप में पढ़ी जानी चाहिए। अगर VOID real-world footage में पर्याप्त अच्छा प्रदर्शन करता है, तो यह video object removal के लिए एक नया baseline तय करने में मदद कर सकता है। अगर यह नियंत्रित परिस्थितियों के बाहर संघर्ष करता है, तब भी यह स्पष्ट कर देगा कि अगली पीढ़ी के tools को क्या हल करना होगा।

किसी भी स्थिति में दिशा साफ़ है। Video-editing AI subtractive tasks से causal tasks की ओर बढ़ रहा है। सिर्फ़ किसी चीज़ को गायब कर देना पर्याप्त नहीं है। सिस्टम को दृश्य को ऐसा दिखाना होगा जैसे वह चीज़ वहाँ कभी थी ही नहीं। Netflix का VOID ऐसा करने का एक शुरुआती open-source प्रयास है, और यही इसे इस हफ्ते के सबसे दिलचस्प AI tool releases में से एक बनाता है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic उम्मीदवारों की परीक्षा के लिए इंटरव्यू में AI टूल्स पर रोक लगाता है

रिपोर्टों के अनुसार, Anthropic लाइव जॉब इंटरव्यू में AI सहायता पर प्रतिबंध लगाता है, जब तक कि स्पष्ट रूप से अनुमति न दी गई हो, क्योंकि कंपनी यह आकलन करना चाहती है कि उम्मीदवार अपने दम पर कैसे तर्क करते हैं।

Read article

Originally published on the-decoder.com

Netflix का VOID वीडियो AI को ऑब्जेक्ट हटाने से आगे ले जाकर कारण-परिणाम संपादन की ओर धकेलता है

ऑब्जेक्ट हटाना अब पूरा काम नहीं रह गया है

सिस्टम कैसे बनाया गया है

OpenAI ने इन्फ्रास्ट्रक्चर काम और लंबे उपभोक्ता विजन के इर्द-गिर्द रोबोटिक्स को फिर से खड़ा किया है

यह open source क्यों महत्वपूर्ण है

एक production समस्या जिसका दायरा बड़ा है

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

यह रिलीज़ video AI की स्थिति के बारे में क्या बताती है

अगली परीक्षा यह है कि ecosystem इस पर निर्माण करता है या नहीं

Anthropic उम्मीदवारों की परीक्षा के लिए इंटरव्यू में AI टूल्स पर रोक लगाता है

Comments (0)

Related Articles

AI मॉडल ने रेसिपी की तर्क-प्रणाली को स्वाद-रसायन से अलग किया

MISUMI ने $1 अरब के AI निर्माण दांव के साथ Americas अभियान शुरू किया

Microsoft और Nvidia कथित तौर पर AI PCs को स्थानीय एजेंटों की ओर धकेल रहे हैं

Keep Reading