NetflixがVOIDをオープンソース化し、動画の物体削除と相互作用編集を実現

物体を消すだけでは、もう十分ではない

Netflixは、VOIDと呼ばれる新しいAIフレームワークをオープンソース化した。VOIDはVideo Object and Interaction Deletionの略だ。表面的には、このシステムは動画編集のよくある問題、つまりシーンから物体を取り除く問題を扱っている。しかし注目すべきは、そこで終わらない点だ。提供された報道によると、VOIDは削除された物体がシーン全体に残した物理的な結果、たとえば衝突のような相互作用まで書き換えようとする。

この違いこそが、この公開を通常のインペインティングツール以上に重要なものにしている。従来の物体削除は、人物や小道具、障害物をフレームから消すことはできても、その物体が動きや接触、シーンのダイナミクスに影響していた場合、編集は破綻しやすい。削除された物体が別の物体にぶつかったり、動きを妨げたり、周囲の要素の振る舞いを変えたりしていたなら、その後の影響も修復しなければ、映像世界は不自然になる。VOIDは、そのより難しい問題に向けて設計されている。

システムの構成

提供された説明では、VOIDは既存の複数のAIコンポーネントを組み合わせた複合システムとして示されている。基盤はAlibabaの動画拡散モデルCogVideoXだ。Netflixの研究者はその後、GoogleのKubricとAdobeのHUMOTOによる合成データを使って相互作用検出のためにシステムを微調整した。GoogleのGemini 3 Proはシーンを解析して影響を受けた領域を特定し、MetaのSAM2は削除すべき物体のセグメンテーションを担う。

任意の2回目の処理では、オプティカルフローを用いて形状の歪みを補正する。この追加ステップが重要なのは、動画操作はフレームごとにはもっともらしく見えても、時間を通した動きの連続性を見ると破綻しがちだからだ。オプティカルフロー手法は、フレーム間でピクセルや特徴量がどう動くべきかを追跡することで、時間的一貫性の維持に役立つ。

このプロジェクトは、Netflixの研究者がINSAIT Sofia Universityと協力して開発した。コード、論文、デモはGitHub、arXiv、Hugging Face経由で公開されており、報道によればApache 2.0ライセンスで公開されているため、商用利用も可能だ。

オープンソース化の意味

Netflixがこのフレームワークを寛容なライセンスで公開したことにより、仕事の意味合いは変わる。これは大手ストリーミング企業の社内研究デモにとどまらない。ほかの人が調査し、試し、適応し、場合によっては商用化までできるツールチェーンなのだ。

これは、動画生成と編集がますます融合しているからこそ重要だ。かつては合成かポストプロダクションのどちらかに特化していたシステムが、両方を担い始めている。VOIDはその変化の中間に位置する。生成AIに関連する拡散モデル基盤を使いながら、明確な制作上の意味を持つ具体的な編集タスクに向けられている。

また、オープンなアクセスは、研究者や開発者に対して、より高度な動画クリーンアップの基準を与える。不要な物体を消せるかどうかではなく、編集後のシーンがなお自然に振る舞うかどうかが、より重要な問いになる。これはより高いハードルであり、今後の動画編集システムの評価基準にも影響しそうだ。

より広い範囲を持つ制作上の課題

直近の用途は明らかだ。動画編集者、VFXチーム、コンテンツ制作者は、映像から機材、通行人、ロゴ、その他の不要な要素を取り除く必要が頻繁にある。しかし最も難しい編集の多くは、物体そのものを隠すのが難しいからではない。物体が環境と相互作用していたから難しいのだ。

削除された要素が影を変え、動きを妨げ、衝突を引き起こし、あるいは別の物体が本来あるべき位置を変えていたなら、シーン全体を単に塗り直すのではなく、再解釈しなければならない。提供された報道では、VOIDは影響を受けた領域を特定し、残された物理的相互作用を考慮することで、まさにそれを目指すシステムとして位置づけられている。

これは、AI支援編集の実用範囲を広げる。物体を消し、さらにその相互作用の痕跡まで書き換えられるツールは、単なるクリーンアップフィルターというより、シーン単位の編集アシスタントに近づく。まだモデル品質、データ、アーティファクト制御に制約されているが、概念的な一歩は大きい。

動画AIの現在地を示す公開

VOIDは、現代のAIシステムがどのように作られているかを示す一例でもある。単一の巨大モデルではなく、パイプラインとして構成されているのだ。この場合、シーン理解、セグメンテーション、生成、補正が、異なる研究・企業エコシステムの複数コンポーネントに分散されている。その結果、対象は狭いが難易度の高いタスクに向けたシステムが生まれている。

このパターンは今後も続くだろう。動画AIは、1つのモデルが全てをやる世界ではなく、問題の各部分を担当する専門モデルを協調させる方向に向かっている。今回の報道では、CogVideoX、Gemini 3 Pro、SAM2、合成データ源、オプティカルフロー補正の役割が明示されており、そのことが特に分かりやすい。

また、この分野が目新しさから、実際のワークフローの痛点を狙うツールへ急速に移行していることも示している。動画から物体を取り除くことは昔から有用だった。だが、その物体が変えてしまった世界を修復するのは、より野心的で、ポストプロダクションのやり方を変えうる能力にずっと近い。

次の試金石は、周辺のエコシステムがこれを土台にするかどうかだ

現時点では、Netflixの公開は研究貢献であると同時に、業界全体への実践的な挑戦として読むべきだ。VOIDが実写映像で十分に機能すれば、動画の物体削除の新しい基準を定義する助けになる。制御された条件の外でうまくいかなくても、次世代ツールが何を解決すべきかを明確にしたことには変わりない。

いずれにせよ、方向性は明確だ。動画編集AIは、何かを引き算する作業から、因果に関わる作業へと移行している。単に何かを消すだけでは不十分で、その物が最初からそこになかったかのように見せなければならない。NetflixのVOIDは、それを実現しようとする初期のオープンソースの試みであり、それが今週もっとも興味深いAIツール公開の一つになっている。

この記事はThe Decoderの報道に基づいています。元記事を読む。