動画生成から共有シミュレーションへ

AIラボのOdysseyは、最大4人のプレイヤーを同じAI生成環境に同時に配置できるワールドモデル「Agora-1」を発表した。同社はNintendo 64の名作GoldenEyeを使ってこのシステムを実演し、ゲームをライブのマルチプレイヤーシミュレーションへと変えた。各参加者は、共有された基盤状態からリアルタイムで生成される、それぞれ異なる視点を見ることができる。

この発表が注目されるのは、これまで公開されてきたワールドモデルのデモの多くが単一のアクティブユーザーに焦点を当てていたからだ。Agora-1はそれとは異なり、同じ生成世界の中で複数人が同時に行動する際に、複数の視点の整合性を保つという、より難しい問題に取り組んでいる。

Agora-1の構成

ソース文によると、Odysseyはこのシステムを2つのモデルに分けている。1つは共通のゲーム状態を継続的にシミュレートし、元のゲームの内部状態から、プレイヤーが移動し行動すると世界がどう変化するかを学習する。もう1つの拡散ベースのモデルは、その共有状態から各プレイヤー向けに個別の視覚的視点を描画する。

この分離が設計の中核にある。従来の動画生成器は、明示的で持続するシミュレーションを維持せずに、固定クリップや反応的な映像を生成する。Agora-1は、むしろ学習されたゲームエンジンのように振る舞う。シミュレーション層が世界で起きていることを追跡し、レンダリング層がその世界を異なるカメラ位置から映像化する。

状態が明示的に管理されるため、Odysseyは、オリジナルのゲームメカニクスを保ったまま新しいレベルも生成できると述べている。これは、録画されたゲームプレイを単に見た目だけ変えているのではなく、少なくともゲームの根底にあるルールの一部を捉えたモデルを構築していることを示唆する。

なぜマルチエージェントの整合性は難しいのか

ソース文は、MultiverseやSolarisのような先行するマルチエージェント手法が、特にプレイヤー同士が互いを見失ったときに苦戦したと述べている。共有世界では、整合性の破綻はすぐに目に見える形になる。あるプレイヤーがドアを開けたり、銃を撃ったり、部屋を横切ったりしたら、他のプレイヤーも自分の位置から整合した結果を体験できなければならない。システムがずれれば、没入感は崩れる。

Agora-1は、その問題への答えとして位置づけられている。ゲーム状態を明示的かつ共有のものとして保つことで、Odysseyは、各描画結果が緩く相関した幻覚ではなく、同じ世界の同期された見え方であり続けることを目指している。要するに同社は、「何が起きたか」と「各参加者が何を見るか」を分離している。これはゲームエンジンが何十年も、状態の複製とクライアント側レンダリングで扱ってきた区別と同じだ。

新しさは、ハードコードされたシミュレーションとレンダリングのパイプラインを、学習されたモデルに置き換えている点にある。

ゲームデモ以上のもの

GoldenEyeという題材はAgora-1にすぐ分かる見せ場を与えるが、Odysseyはこの技術をより広く位置づけている。同社はStarchild-1という関連システムも紹介しており、これは継続的なテキスト入力に応答しながら、同期した映像と音声を生成する対話型の音声・映像ワールドモデルだと説明されている。Agora-1とは異なり、Starchild-1は単一ユーザーに焦点を当てているが、音声と環境音を加えている。ソース文によれば、まだ公開デモはなく、サンプル動画と技術論文のみがある。

この2つの発表を合わせると、Odysseyが受動的な生成を超えて、対話型環境へと進んでいることが分かる。この方向性が重要なのは、ワールドモデルの最も価値ある用途のいくつかが、映画のようなコンテンツではなく、エージェント、ロボット、人間が行動し、結果を観察し、協調する必要のあるシミュレーション環境にあるかもしれないからだ。

AI訓練とロボティクスでの潜在的な用途

Odysseyは、将来の用途としてAIエージェントの訓練と協働ロボティクスを明示的に挙げている。理屈は明快だ。複数のアクターを含む持続的な共有環境をシミュレートできるなら、それは協調、計画、身体性のある意思決定のためのサンドボックスになり得る。

ロボティクスでは、マルチエージェントの整合性は見た目の問題ではない。協働するロボットは、空間、物体、そして互いの行動について整合した認識を持つ必要がある。変化する視点の下でもそれらの関係を維持できる学習済みワールドモデルは、合成訓練だけでなく、展開前の方策テストにも役立つ可能性がある。

AIエージェントが協力、競争、コミュニケーションを学ぶ場合も同じだ。単一ユーザー向けのサンドボックスは有用だが、現実世界の多くのタスクは、複数のアクターが1つの環境を共有する形で行われる。Agora-1は、その条件を直接モデル化しようとする初期の試みだ。

競争環境の中での位置づけ

ソース文はAgora-1を、OpenAIのSoraやGoogleのVeo 3のような動画生成器と対比している。これらは持続的なシミュレーションではなくクリップを生成する。また、より広いワールドモデル領域でよく知られた競合としてGoogleのGenie 3にも言及している。この比較は、製品カテゴリを明確にする点で有用だ。Agora-1の主眼は、より見栄えの良い動画ではない。共通の潜在世界の中での継続的な相互作用にある。

これはより難しい問題であり、評価基準も異なる。フレーム品質は重要だが、一貫性、応答性、そして時間を通じた世界ルールの安定性も重要だ。

初期段階だが重要な一歩

Agora-1はまだデモシステムであり、ソース資料は製品投入可能だとは主張していない。しかし、生成AIにおける重要な移行を示している。分野は、孤立したメディア出力を生成する段階から、複数の参加者が同時に居住し、行動できる環境をシミュレートする段階へ移りつつある。

この移行が定着すれば、その意義は懐かしいゲームの再現をはるかに超える。共有ワールドモデルは、エージェント訓練、インターフェースの試作、新しい形のインタラクティブメディアの探求のための基盤になるかもしれない。OdysseyのGoldenEye実験は限定的な見本だが、より広い技術的変化を捉えている。AIシステムは、単にシーンをモデル化するだけでなく、連続性、ルール、そして複数の視点を持つ世界をモデル化し始めているのだ。

この記事はThe Decoderの報道に基づいています。元記事を読む

Originally published on the-decoder.com