Netflix 开源 VOID，用于视频物体移除与交互编辑

移除物体已经不再是全部任务

Netflix 开源了一套名为 VOID 的新 AI 框架，缩写自 Video Object and Interaction Deletion。表面上看，这套系统处理的是一个熟悉的视频编辑问题：从场景中移除一个物体。真正让这个项目值得注意的是，它并不止步于此。根据所提供的报道，VOID 还试图改写被移除物体对整个场景留下的物理后果，包括碰撞之类的交互。

正是这一点区别，让这次发布比普通的修复补全工具更有意义。传统的物体移除可以把一个人、道具或障碍物从画面中抹掉，但如果那个缺失物体之前影响过运动、接触或场景动态，编辑往往就会失效。若被移除的物体曾碰到其他物体、阻挡运动，或改变周围元素的行为，那么除非把这些后续效果也修复掉，视觉世界就不再合理。VOID 正是为了解决这个更难的问题而设计的。

系统是如何组装的

所提供的描述把 VOID રજૂ为一个由多个现有 AI 组件组合而成的系统。它的基础是阿里巴巴的 video diffusion model CogVideoX。随后，Netflix 研究人员使用来自 Google 的 Kubric 和 Adobe 的 HUMOTO 的合成数据对系统进行了微调，用于交互检测。Google 的 Gemini 3 Pro 用来分析场景并识别受影响区域，而 Meta 的 SAM2 则负责分割需要移除的物体。

可选的第二遍会使用 optical flow 来修正形变失真。这一步很重要，因为视频编辑往往逐帧看起来都很合理，但一旦检查跨时间的运动连续性就会出问题。Optical flow 方法可以通过跟踪像素或特征在帧间应如何移动，来帮助维持时间一致性。

该项目由 Netflix 研究人员与 INSAIT Sofia University 合作开发。代码、论文和演示分别可通过 GitHub、arXiv 和 Hugging Face 获取，报道还称此次发布采用 Apache 2.0 许可证，允许商业使用。

How we used Gemini to build Google I/O 2026

谷歌披露 Gemini 如何助力 I/O 2026 的制作

谷歌表示，团队借助 Gemini 和其他 AI 工具帮助制作 Google I/O 2026 的影片、视觉内容和活动元素，将这场大会呈现为 AI 辅助制作的内部示范。

Read article

为什么开源很重要

Netflix 以宽松许可证开源这套框架，改变了这项工作的意义。这不只是某家大型流媒体公司的内部研究演示，而是一套别人可以检查、测试、改造，甚至商业化的工具链。

这很重要，因为视频生成和视频编辑正在不断融合。过去分别专注于合成或后期制作的系统，如今开始两者兼顾。VOID 正处于这一变化的中间位置。它采用了与生成式 AI 相关的 diffusion model 基础，但目标是一项具有明确制作影响的具体编辑任务。

开放访问也为研究人员和开发者提供了一个更先进的视频清理基准。问题不再只是能否删除一个不想要的物体，而是编辑之后场景是否仍然可信地运作。这是一个更高的标准，也很可能影响未来视频编辑系统的评判方式。

一个影响更广的制作问题

最直接的应用场景显而易见。视频编辑人员、VFX 团队和内容制作人经常需要从素材中移除设备、路人、标志或其他不需要的元素。但许多最难的编辑并不是因为物体本身难以遮盖，而是因为物体与环境发生过交互。

如果一个被移除的物体改变了阴影、打断了运动、引发了碰撞，或者改变了另一个物体本应出现的位置，那么场景剩余部分就必须被重新解释，而不是简单重绘。所提供的报道将 VOID 置于这样一个系统的位置：它试图识别受影响区域，并处理留下的物理交互。

这扩大了 AI 辅助编辑的实际范围。一个既能移除物体、又能改写其交互痕迹的工具，开始更像是一个场景级编辑助手，而不只是清理滤镜。它仍然受限于模型质量、数据和伪影控制，但概念上的进步很重要。

研究发现，AI 编码代理在社会科学中的使用差异极大

Anthropic 的一项研究发现，社会科学领域对编码代理的采用存在巨大差异，差异体现在性别、学科、职业阶段和大学排名上。

Read article

这次发布说明了视频 AI 的现状

VOID 也是现代 AI 系统如何构建的一个缩影：不是单一的庞大模型，而是由多个环节组成的流水线。在这里，场景理解、分割、生成和修正被分散到来自不同研究和公司生态的多个组件中。最终形成的是一个为狭窄但困难任务而设计的系统。

这种模式大概率还会继续。视频 AI 正在从“一个模型包办一切”转向“协调多个专门模型分别处理问题的一部分”。报道通过点名 CogVideoX、Gemini 3 Pro、SAM2、合成数据源和 optical-flow 修正的作用，把这一点表现得很清楚。

它也表明，这个领域正迅速从新奇感，转向针对工作流痛点的工具。把一个物体从视频中移除一直都很有用；而修复那个物体改变过的世界，则更具野心，也更接近会改变后期制作方式的能力。

下一步考验是生态是否会围绕它继续构建

就目前而言，Netflix 的发布应被视为研究贡献，同时也是对整个领域的现实挑战。如果 VOID 在真实素材中表现足够好，它或许会帮助定义视频物体移除的新基准。如果它在受控条件之外表现不佳，也至少已经明确了下一代工具需要解决什么问题。

无论哪种情况，方向都很清楚。视频编辑 AI 正在从减法任务转向因果任务。让某样东西消失还不够，系统还必须让场景看起来仿佛那样东西从未存在过。Netflix 的 VOID 是朝这个方向的一次早期开源尝试，这也让它成为本周更有意思的 AI 工具发布之一。

本文基于 The Decoder 的报道。阅读原文。

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic禁止在面试中使用AI工具以考察候选人

据报道，Anthropic禁止在现场求职面试中使用AI辅助，除非获得明确许可，因为该公司试图评估应聘者独立推理的能力。

Read article

Originally published on the-decoder.com

Netflix 的 VOID 将视频 AI 从物体移除推进到因果编辑

移除物体已经不再是全部任务

系统是如何组装的

谷歌披露 Gemini 如何助力 I/O 2026 的制作

为什么开源很重要

一个影响更广的制作问题

研究发现，AI 编码代理在社会科学中的使用差异极大

这次发布说明了视频 AI 的现状

下一步考验是生态是否会围绕它继续构建

Anthropic禁止在面试中使用AI工具以考察候选人

Comments (0)

Related Articles

MISUMI以10亿美元AI制造押注启动美洲扩张

Keep Reading