NaverのSeoul World ModelはAI動画を実在する都市幾何に基づかせる

生成動画の問題は画像品質だけではない

最近の多くの動画世界モデルは、プロンプトから印象的なクリップを生成できるが、なお一つの根本的な制約を共有している。生成される世界は、しばしば短い区間でしか整合しないのだ。道路はあり得ない形に曲がり、建物は変形し、見えていない都市の部分はその場で作り出される。NaverのSeoul World Model、つまりSWMについての提供記事が興味深いのは、この問題を根本から扱っている点にある。AIシステムにもっともらしい都市を幻覚させるのではなく、Naverは生成を実在する都市の幾何と外観に固定している。

提供記事によると、このシステムは韓国のストリートビューサービスであるNaver Mapの120万枚のパノラマ画像を使って、場所ベースの動画を構築する。ユーザーは地理座標、カメラの動き、テキストプロンプトを与え、モデルは近隣のストリートビュー画像を視覚ガイドとして取得し、段階的に生成を進める。

重要なのは実際の地理だ

記事はSWMを、実在する物理的な場所に結びついた初のワールドモデルとして説明している。これは重要な違いだ。従来のシステムは実際のフレームから始めたり、現実世界のシーンを模倣したりできるが、生成がカメラが最初に見た範囲を超えると、実際の都市構造への固定を失ってしまう。SWMはまさにそのドリフトを減らすよう設計されている。

それが重要なのは、一貫性こそが、印象的なデモと信頼できるツールを分ける最大の障壁の一つだからだ。ルートの論理、建物の配置、シーンの連続性を保てない生成都市は面白いが、用途は限られる。実在の地図に基づいて維持されるモデルなら、シミュレーション、計画、場所認識型のストーリーテリング、地理が重要な訓練環境に役立つ可能性がある。

Create, edit and star in videos with two Google Vids updates

Google Vids が Gemini Omni とパーソナルアバターを追加

Google は、Workspace 内の AI 動画制作を拡張し、プロンプトベースのクリップ生成と編集に加え、セルフィーと音声録音から作成するカスタムアバターを導入した。

Read article

難しいのは都市が静的ではないことだ

提供テキストは、なぜ実際のストリートビューデータが独自の技術的課題を生むのかも説明している。ストリートビューのパノラマはスナップショットだ。駐車中の車、歩行者、都市の安定した表現には属さない一時的な物体を写し込む。そのためシステムは、恒久的な構造と一時的な内容を区別しなければならない。

記事によれば、Naverのアプローチは異なる時点で撮影された記録を分析し、建物や道路と短命なシーン要素を分離できるようにすることだ。また、欠けているカメラ角度を埋めるためにシミュレートされた動画を使い、長い生成のためのアンカーとして、ルートのさらに先にある追加のストリートビュー画像も使う。つまり、このモデルは単に保存済みの画像を再生しているわけではない。都市空間の、根拠がありつつ柔軟な表現を作ろうとしているのだ。

ベンチマークは実用的な利点を示している

性能面では、提供レポートによるとSWMは、視覚品質と時間的一貫性の両方で、現行6つの動画世界モデルを上回った。また、追加学習なしで、釜山やアナーバーを含む未知の都市にも一般化できたとしている。

この2つの主張を合わせると重要性が増す。品質向上だけなら、単なる見栄えの改善かもしれない。一貫性向上だけでも、訓練環境の外に出るにはまだ脆すぎる可能性がある。別の都市への一般化は、この手法がソウルを記憶したから有効なのではないことを示唆する。記事の含意は、実際の幾何に生成を結びつけることが、単発のローカルデモではなく、より広い設計原則になり得るということだ。

これはデータ優位の話でもある

Naverはしばしば韓国のGoogleと呼ばれるが、この比較はここで重要だ。というのも、このモデルの強みは、大規模な独自の地図アーカイブへのアクセスに依存しているからだ。同社がローカル検索と地図のエコシステムで支配的な立場にあることで、多くのAI研究機関が持たないデータ資産を得ている。SWMは、生成モデル研究が、密度が高く所有された実世界の視覚データと結びつくと何が起こるかを示している。

これはAI競争における繰り返しのテーマになるかもしれない。最強のシステムが必ずしも最大の汎用モデルを持つものとは限らない。地図、ソフトウェアリポジトリ、医療記録、産業ログなど、特定ドメインの特権的データにつながったシステムが強くなる可能性がある。

製品としての意味は新規性を超える

提供記事は、ユーザーがテキストプロンプトで生成シーンを変更できることを強調している。燃える車や、空にそびえる巨大な怪物といった劇的な追加も可能だ。これらの例は演出的だが、背後にある狙いを示している。つまり、地理的に信頼できるだけの現実感を保ちながら、その上で生成の自由度を与えることだ。

このバランスは、シミュレーション、地域広告、都市可視化、ロボット訓練、ナビゲーションUI、エンターテインメントにとって重要になりうる。信頼できるワールドモデルは、単に見栄えの良い動画のことではない。空間的な信頼の問題なのだ。AIシステムが物の位置を保てるなら、より多くの用途が成立する。

より大きな教訓は単純だ

この2年間、生成AIは幻覚をしばしばテキストの問題として、一貫性をスタイルの問題として扱ってきた。NaverのSeoul World Modelは、それらが世界モデル化の問題でもあることを示唆している。システムが自分がどの都市にいるのか分からなければ、角を曲がった先に何があるかを信頼できる形では示せない。

実際の座標と実際の都市画像に生成を結びつけることで、Naverは合成動画により厳しい基準を提案している。単にもっともらしいだけでなく、場所を理解していることだ。このアプローチがさらにスケールすれば、生成メディアは自由な発明から根拠あるシミュレーションへと移る重要な転換点になるかもしれない。幻覚がなくなるわけではない。ただ、スカイラインの中に隠すのが難しくなるだけだ。

この記事は The Decoder の報道に基づいている。元記事を読む。

Originally published on the-decoder.com

NaverのSeoul World Modelは、生成動画の中核的な弱点を修正しようとしている