1枚の画像から探索可能な3D世界へ

Nvidiaの研究者は、1枚の写真から大規模で整合性のある3D環境を生成するよう設計されたLyra 2.0を発表した。同社によれば、生成されたシーンはリアルタイムで探索でき、Isaac Simのようなシミュレーション基盤へエクスポートして、ロボット訓練に利用できる。

この構想は野心的だが、ロボティクス向け現代AIの中心的な課題とよく合致している。エージェントをシミュレーション内で訓練する方が、物理世界だけで訓練するよりもはるかに簡単で、安価で、安全だが、有用なシミュレーションは、十分に大きく、安定し、現実味のある環境を構築できるかに依存している。1枚の画像が数十メートルに広がる整合的なシーンの起点になり得るなら、シミュレーション用コンテンツ作成のコストを実質的に下げられる可能性がある。

報道によると、Lyra 2.0はおよそ90メートルに及ぶシーンを生成できる。だが、単純なサイズ以上に重要なのは、このモデルが従来手法の2つの典型的な弱点、つまり既に生成した内容を忘れてしまうことと、小さな視覚誤差が蓄積して大きな歪みに発展することに対処しているという点だ。

長距離の3D生成が難しい理由

既存の3Dシーン生成AIは、仮想カメラが出発点から遠ざかるほど品質が劣化しがちだ。色がずれ、幾何が変化し、環境の一貫性が失われる。後でカメラがすでに見た領域に戻ると、モデルはその場所を以前の視点との連続性を保つのではなく、事実上もう一度作り直してしまうことがある。

ロボティクスにとって、こうした失敗は単なる見た目の問題ではない。探索中に微妙に形を変えるシミュレーション環境は、安定した空間構造に依存する具身システムの訓練基盤として脆弱だ。世界そのものが持続しなければ、ナビゲーション、マニピュレーション、計画の信頼性は下がる。

だからこそ、シーンの新規性よりも整合性が重要になる。使える訓練世界には、エージェントが単なるもっともらしい画像列ではなく、場所としてそこを移動できるだけの一貫性が必要だ。

Lyra 2.0はどう問題を解決しようとしているのか

報道によれば、Lyra 2.0は生成した各フレームの3Dジオメトリを保存する。仮想カメラが以前訪れた領域に戻ると、システムは過去のフレームを取り出し、その空間情報を参照素材として利用する。画像合成自体はビデオモデルが担うが、保存されたジオメトリは向きや位置関係を維持し、連続性を保つ助けになるよう設計されている。

この設計は、先行システムの第一の大きな弱点である忘却を狙っている。以前見た領域を思い出し、保存されたジオメトリを通じて再度固定できれば、生成環境はより長い軌跡でも整合性を保ちやすくなる。

第二の問題はドリフトだ。小さな生成誤差が一歩ごとに積み上がっていく。報道によるとNvidiaの解決策は、モデル自身の欠陥のある出力に対して訓練し、劣化を単に引き継ぐのではなく、それを認識して修正することを学ばせるというものだ。これは実用的な戦略で、生成がきれいに進むと仮定するのではなく、起こりうるノイズに訓練段階で触れさせるやり方だ。