Eliminar objetos ya no es toda la tarea

Netflix ha liberado como código abierto un nuevo marco de IA llamado VOID, sigla de Video Object and Interaction Deletion. A primera vista, el sistema aborda un problema familiar de edición de video: eliminar un objeto de una escena. Lo notable del proyecto es que no se detiene ahí. Según el informe proporcionado, VOID también intenta reescribir las consecuencias físicas que el objeto eliminado tuvo sobre el resto de la escena, incluidas interacciones como las colisiones.

Esa diferencia es lo que hace que el lanzamiento sea más relevante que una herramienta estándar de inpainting. La eliminación tradicional de objetos puede borrar una persona, un accesorio o una obstrucción de un fotograma, pero la edición suele desmoronarse cuando el objeto ausente afectó antes al movimiento, al contacto o a la dinámica de la escena. Si un objeto eliminado golpeó otro elemento, bloqueó un movimiento o cambió cómo se comportaban los elementos cercanos, el mundo visual ya no tiene sentido a menos que esos efectos posteriores también se reparen. VOID está diseñado para ese problema más difícil.

Cómo está ensamblado el sistema

La descripción proporcionada presenta VOID como un sistema compuesto por múltiples componentes de IA existentes. Su base es el modelo de difusión de video CogVideoX de Alibaba. Después, los investigadores de Netflix ajustaron el sistema con datos sintéticos de Kubric de Google y HUMOTO de Adobe para la detección de interacciones. Gemini 3 Pro de Google se usa para analizar la escena e identificar las áreas afectadas, mientras que SAM2 de Meta se encarga de segmentar los objetos que deben eliminarse.

Una segunda pasada opcional utiliza flujo óptico para corregir distorsiones de forma. Ese paso adicional importa porque la manipulación de video suele parecer plausible fotograma por fotograma, pero falla cuando se inspecciona la continuidad del movimiento a lo largo del tiempo. Los métodos de flujo óptico pueden ayudar a preservar la coherencia temporal al rastrear cómo deberían moverse los píxeles o las características entre fotogramas.

El proyecto fue desarrollado por investigadores de Netflix en colaboración con INSAIT Sofia University. El código, el artículo y la demostración están disponibles a través de GitHub, arXiv y Hugging Face, y el informe dice que el lanzamiento utiliza la licencia Apache 2.0, lo que permite uso comercial.

Por qué importa que sea de código abierto

La decisión de Netflix de publicar el marco bajo una licencia permisiva cambia el significado del trabajo. No se trata solo de una demo interna de investigación de una gran empresa de streaming. Es una cadena de herramientas que otros pueden inspeccionar, probar, adaptar y potencialmente comercializar.

Eso importa porque la generación y la edición de video están convergiendo cada vez más. Los sistemas que antes se especializaban en síntesis o en posproducción empiezan a hacer ambas cosas. VOID se sitúa en medio de ese cambio. Usa bases de modelo de difusión asociadas con la IA generativa, pero está orientado a una tarea concreta de edición con implicaciones claras para la producción.

El acceso abierto también ofrece a investigadores y desarrolladores una referencia para una definición más avanzada de limpieza de video. En lugar de preguntarse si se puede borrar un objeto no deseado, la cuestión más relevante pasa a ser si la escena sigue comportándose de forma creíble después de la edición. Ese es un listón más alto y probablemente influirá en cómo se evalúen los futuros sistemas de edición de video.

Un problema de producción con alcance más amplio

El caso de uso inmediato es obvio. Editores de video, equipos de VFX y productores de contenido necesitan con frecuencia eliminar equipos, transeúntes, logotipos u otros elementos no deseados del metraje. Pero muchas de las ediciones más difíciles no lo son porque el objeto sea difícil de ocultar. Lo son porque el objeto interactuó con el entorno.

Si un elemento eliminado alteró sombras, interrumpió el movimiento, causó una colisión o cambió dónde debería estar otro objeto, el resto de la escena debe reinterpretarse, no solo repintarse. El informe proporcionado presenta a VOID como un sistema que intenta hacer exactamente eso, identificando las áreas afectadas y teniendo en cuenta las interacciones físicas que quedaron atrás.

Eso amplía el alcance práctico de la edición asistida por IA. Una herramienta que puede eliminar un objeto y también reescribir las evidencias de su interacción empieza a parecer menos un filtro de limpieza y más un asistente de edición a nivel de escena. Sigue limitada por la calidad del modelo, los datos y el control de artefactos, pero el salto conceptual es importante.

Lo que el lanzamiento dice sobre el estado de la IA de video

VOID también es una instantánea de cómo se están construyendo los sistemas modernos de IA: no como modelos monolíticos únicos, sino como canales de procesamiento. En este caso, la comprensión de la escena, la segmentación, la generación y la corrección se reparten entre varios componentes de diferentes ecosistemas de investigación y empresa. El resultado es un sistema diseñado para una tarea estrecha pero difícil.

Es probable que ese patrón continúe. La IA de video se está volviendo menos una cuestión de que un solo modelo haga todo y más de coordinar modelos especializados que se encarguen de partes del problema. El informe lo deja especialmente claro al nombrar las funciones de CogVideoX, Gemini 3 Pro, SAM2, las fuentes de datos sintéticos y la corrección por flujo óptico.

También señala lo rápido que el campo está pasando de la novedad a herramientas que abordan problemas concretos de flujo de trabajo. Eliminar un objeto de un video siempre ha sido útil. Reparar el mundo que ese objeto alteró es más ambicioso y mucho más cercano al tipo de capacidad que podría cambiar la forma en que se hace la posproducción.

La próxima prueba es si el ecosistema lo aprovecha

Por ahora, el lanzamiento de Netflix debe leerse tanto como una contribución de investigación como un desafío práctico para el resto del sector. Si VOID rinde lo bastante bien en material real, podría ayudar a definir un nuevo estándar para la eliminación de objetos en video. Si falla fuera de condiciones controladas, aun así habrá aclarado lo que la siguiente generación de herramientas necesita resolver.

En cualquier caso, la dirección está clara. La IA para edición de video se está moviendo de tareas sustractivas hacia tareas causales. No basta con hacer desaparecer algo. El sistema tiene que hacer que la escena parezca como si ese algo nunca hubiese estado allí. VOID de Netflix es un intento abierto y temprano de hacer exactamente eso, y eso lo convierte en uno de los lanzamientos de herramientas de IA más interesantes de la semana.

Este artículo se basa en un informe de The Decoder. Leer el artículo original.