移除物体已经不再是全部任务
Netflix 开源了一套名为 VOID 的新 AI 框架,缩写自 Video Object and Interaction Deletion。表面上看,这套系统处理的是一个熟悉的视频编辑问题:从场景中移除一个物体。真正让这个项目值得注意的是,它并不止步于此。根据所提供的报道,VOID 还试图改写被移除物体对整个场景留下的物理后果,包括碰撞之类的交互。
正是这一点区别,让这次发布比普通的修复补全工具更有意义。传统的物体移除可以把一个人、道具或障碍物从画面中抹掉,但如果那个缺失物体之前影响过运动、接触或场景动态,编辑往往就会失效。若被移除的物体曾碰到其他物体、阻挡运动,或改变周围元素的行为,那么除非把这些后续效果也修复掉,视觉世界就不再合理。VOID 正是为了解决这个更难的问题而设计的。
系统是如何组装的
所提供的描述把 VOID રજૂ为一个由多个现有 AI 组件组合而成的系统。它的基础是阿里巴巴的 video diffusion model CogVideoX。随后,Netflix 研究人员使用来自 Google 的 Kubric 和 Adobe 的 HUMOTO 的合成数据对系统进行了微调,用于交互检测。Google 的 Gemini 3 Pro 用来分析场景并识别受影响区域,而 Meta 的 SAM2 则负责分割需要移除的物体。
可选的第二遍会使用 optical flow 来修正形变失真。这一步很重要,因为视频编辑往往逐帧看起来都很合理,但一旦检查跨时间的运动连续性就会出问题。Optical flow 方法可以通过跟踪像素或特征在帧间应如何移动,来帮助维持时间一致性。
该项目由 Netflix 研究人员与 INSAIT Sofia University 合作开发。代码、论文和演示分别可通过 GitHub、arXiv 和 Hugging Face 获取,报道还称此次发布采用 Apache 2.0 许可证,允许商业使用。
为什么开源很重要
Netflix 以宽松许可证开源这套框架,改变了这项工作的意义。这不只是某家大型流媒体公司的内部研究演示,而是一套别人可以检查、测试、改造,甚至商业化的工具链。
这很重要,因为视频生成和视频编辑正在不断融合。过去分别专注于合成或后期制作的系统,如今开始两者兼顾。VOID 正处于这一变化的中间位置。它采用了与生成式 AI 相关的 diffusion model 基础,但目标是一项具有明确制作影响的具体编辑任务。
开放访问也为研究人员和开发者提供了一个更先进的视频清理基准。问题不再只是能否删除一个不想要的物体,而是编辑之后场景是否仍然可信地运作。这是一个更高的标准,也很可能影响未来视频编辑系统的评判方式。
一个影响更广的制作问题
最直接的应用场景显而易见。视频编辑人员、VFX 团队和内容制作人经常需要从素材中移除设备、路人、标志或其他不需要的元素。但许多最难的编辑并不是因为物体本身难以遮盖,而是因为物体与环境发生过交互。
如果一个被移除的物体改变了阴影、打断了运动、引发了碰撞,或者改变了另一个物体本应出现的位置,那么场景剩余部分就必须被重新解释,而不是简单重绘。所提供的报道将 VOID 置于这样一个系统的位置:它试图识别受影响区域,并处理留下的物理交互。
这扩大了 AI 辅助编辑的实际范围。一个既能移除物体、又能改写其交互痕迹的工具,开始更像是一个场景级编辑助手,而不只是清理滤镜。它仍然受限于模型质量、数据和伪影控制,但概念上的进步很重要。
这次发布说明了视频 AI 的现状
VOID 也是现代 AI 系统如何构建的一个缩影:不是单一的庞大模型,而是由多个环节组成的流水线。在这里,场景理解、分割、生成和修正被分散到来自不同研究和公司生态的多个组件中。最终形成的是一个为狭窄但困难任务而设计的系统。
这种模式大概率还会继续。视频 AI 正在从“一个模型包办一切”转向“协调多个专门模型分别处理问题的一部分”。报道通过点名 CogVideoX、Gemini 3 Pro、SAM2、合成数据源和 optical-flow 修正的作用,把这一点表现得很清楚。
它也表明,这个领域正迅速从新奇感,转向针对工作流痛点的工具。把一个物体从视频中移除一直都很有用;而修复那个物体改变过的世界,则更具野心,也更接近会改变后期制作方式的能力。
下一步考验是生态是否会围绕它继续构建
就目前而言,Netflix 的发布应被视为研究贡献,同时也是对整个领域的现实挑战。如果 VOID 在真实素材中表现足够好,它或许会帮助定义视频物体移除的新基准。如果它在受控条件之外表现不佳,也至少已经明确了下一代工具需要解决什么问题。
无论哪种情况,方向都很清楚。视频编辑 AI 正在从减法任务转向因果任务。让某样东西消失还不够,系统还必须让场景看起来仿佛那样东西从未存在过。Netflix 的 VOID 是朝这个方向的一次早期开源尝试,这也让它成为本周更有意思的 AI 工具发布之一。
本文基于 The Decoder 的报道。 阅读原文。




