Netflix torna open source o VOID para remoção de objetos e edição de interações

Remover objetos já não é a tarefa inteira

A Netflix tornou open source um novo framework de IA chamado VOID, sigla de Video Object and Interaction Deletion. À primeira vista, o sistema resolve um problema familiar de edição de vídeo: remover um objeto de uma cena. O que torna o projeto notável é que ele não para por aí. Segundo o relatório fornecido, o VOID também tenta reescrever as consequências físicas que o objeto removido deixou no restante da cena, incluindo interações como colisões.

Essa distinção é o que torna o lançamento mais relevante do que uma ferramenta padrão de inpainting. A remoção tradicional de objetos pode apagar uma pessoa, um acessório ou um obstáculo de um quadro, mas a edição frequentemente quebra quando o objeto ausente anteriormente afetou movimento, contato ou a dinâmica da cena. Se um objeto removido esbarrou em outro, bloqueou um movimento ou alterou como os elementos ao redor se comportavam, o mundo visual deixa de fazer sentido a menos que esses efeitos posteriores também sejam reparados. O VOID foi projetado em torno desse problema mais difícil.

Como o sistema é montado

A descrição fornecida apresenta o VOID como um sistema composto construído sobre vários componentes de IA existentes. Sua base é o modelo de difusão de vídeo CogVideoX, da Alibaba. Depois, pesquisadores da Netflix fizeram fine-tuning do sistema usando dados sintéticos do Kubric, do Google, e do HUMOTO, da Adobe, para detecção de interações. O Gemini 3 Pro, do Google, é usado para analisar a cena e identificar as áreas afetadas, enquanto o SAM2, da Meta, cuida da segmentação dos objetos que precisam ser removidos.

Uma segunda passada opcional usa fluxo óptico para corrigir distorções de forma. Esse passo extra importa porque a manipulação de vídeo muitas vezes parece plausível quadro a quadro, mas falha quando a continuidade do movimento é inspecionada ao longo do tempo. Métodos de fluxo óptico podem ajudar a preservar a consistência temporal ao rastrear como pixels ou características devem se mover entre quadros.

O projeto foi desenvolvido por pesquisadores da Netflix em colaboração com a INSAIT Sofia University. O código, o paper e a demo estão disponíveis via GitHub, arXiv e Hugging Face, e o relatório diz que o lançamento usa a licença Apache 2.0, permitindo uso comercial.

Por que open source importa aqui

A decisão da Netflix de lançar o framework sob uma licença permissiva muda a importância do trabalho. Não se trata apenas de uma demo de pesquisa interna de uma grande empresa de streaming. É um conjunto de ferramentas que outros podem inspecionar, testar, adaptar e potencialmente comercializar.

Isso importa porque geração e edição de vídeo estão cada vez mais convergindo. Sistemas que antes se especializavam em síntese ou em pós-produção estão começando a fazer as duas coisas. O VOID fica no meio dessa mudança. Ele usa bases de modelos de difusão associadas à IA generativa, mas é voltado para uma tarefa concreta de edição com implicações claras para produção.

O acesso aberto também dá a pesquisadores e desenvolvedores uma referência para uma definição mais avançada de limpeza de vídeo. Em vez de perguntar se um objeto indesejado pode ser apagado, a questão mais relevante passa a ser se a cena ainda se comporta de forma crível depois da edição. Esse é um patamar mais alto e provavelmente vai influenciar como os futuros sistemas de edição de vídeo serão avaliados.

Um problema de produção com alcance maior

O caso de uso imediato é óbvio. Editores de vídeo, equipes de VFX e produtores de conteúdo frequentemente precisam remover equipamentos, pessoas passando, logotipos ou outros elementos indesejados das imagens. Mas muitas das edições mais difíceis não são difíceis porque o objeto em si é complicado de mascarar. Elas são difíceis porque o objeto interagiu com o ambiente.

Se um item removido alterou sombras, interrompeu o movimento, causou uma colisão ou mudou onde outro objeto deveria estar, o restante da cena precisa ser reinterpretado, e não apenas repintado. O relatório fornecido posiciona o VOID como um sistema que tenta fazer exatamente isso, identificando as áreas afetadas e considerando as interações físicas deixadas para trás.

Isso amplia o escopo prático da edição assistida por IA. Uma ferramenta que consegue remover um objeto e também reescrever as evidências da interação começa a parecer menos um filtro de limpeza e mais um assistente de edição em nível de cena. Ainda está limitada pela qualidade do modelo, pelos dados e pelo controle de artefatos, mas o salto conceitual é importante.

O que o lançamento diz sobre o estado da IA de vídeo

O VOID também é um retrato de como os sistemas modernos de IA estão sendo construídos: não como modelos monolíticos únicos, mas como pipelines. Nesse caso, compreensão de cena, segmentação, geração e correção são distribuídas entre vários componentes de diferentes ecossistemas de pesquisa e empresas. O resultado é um sistema projetado para uma tarefa estreita, mas difícil.

Esse padrão provavelmente continuará. A IA de vídeo está se tornando menos sobre um modelo fazer tudo e mais sobre coordenar modelos especializados que tratam de partes do problema. O relatório deixa isso especialmente claro ao nomear os papéis de CogVideoX, Gemini 3 Pro, SAM2, das fontes de dados sintéticos e da correção por fluxo óptico.

Ele também sinaliza como o campo está rapidamente saindo da novidade e indo em direção a ferramentas que atacam pontos de dor do fluxo de trabalho. Remover um objeto de vídeo sempre foi útil. Reparar o mundo que esse objeto alterou é mais ambicioso e muito mais próximo do tipo de capacidade que pode mudar a forma como a pós-produção é feita.

O próximo teste é ver se o ecossistema vai construir em cima disso

Por enquanto, o lançamento da Netflix deve ser lido tanto como uma contribuição de pesquisa quanto como um desafio prático para o restante do setor. Se o VOID tiver desempenho suficiente em imagens reais, pode ajudar a definir um novo padrão para remoção de objetos em vídeo. Se falhar fora de condições controladas, ainda assim terá esclarecido o que a próxima geração de ferramentas precisa resolver.

De qualquer forma, a direção é clara. A IA de edição de vídeo está se movendo de tarefas subtrativas para tarefas causais. Não basta fazer algo desaparecer. O sistema precisa fazer a cena parecer como se aquilo nunca tivesse estado ali. O VOID da Netflix é uma tentativa inicial e open source de fazer exatamente isso, e isso o torna um dos lançamentos de ferramentas de IA mais interessantes da semana.

Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.