Nvidia Lyra 2.0 用一张照片构建机器人训练 3D 世界

从一张图像到可导航的 3D 世界

Nvidia 研究人员发布了 Lyra 2.0，这是一套旨在从单张照片生成大规模、连贯 3D 环境的系统。该公司表示，生成的场景可以实时探索，并导出到 Isaac Sim 等仿真平台，用于机器人训练。

这一设想雄心勃勃，但与现代机器人 AI 的核心问题高度契合：在仿真中训练智能体远比只在物理世界中训练更容易、更便宜也更安全，但有价值的仿真仍然依赖于构建足够大、足够稳定且足够逼真的环境。如果一张图像就能生成一个延伸数十米的连贯场景，那么模拟内容的创建成本可能会显著下降。

根据报道，Lyra 2.0 可以生成跨度约 90 米的场景。不过，比起纯粹的规模，更重要的是该模型据称解决了先前方法的两个常见弱点：忘记已经生成过的内容，以及随着时间推移累积细小视觉错误并最终放大为更大失真。

为什么长路径 3D 生成很难

现有的 3D 场景生成 AI 系统在虚拟摄像机离起点越来越远时，往往会逐渐退化。颜色会漂移，几何形状会改变，环境也会失去一致性。如果摄像机后来回到已经见过的区域，模型可能会实际上重新“发明”那个位置，而不是保留与先前视图一致的连续性。

对于机器人来说，这些失败并不只是视觉层面的问题。一个在探索过程中悄然重塑自身的仿真环境，是训练依赖稳定空间结构的具身系统时十分脆弱的基础。如果世界本身不具备持久性，导航、操作和规划都会变得不那么可靠。

这也是为什么场景连贯性比新奇性更重要。一个可用的训练世界需要足够一致，这样智能体才能把它当作一个真实存在的地方来穿行，而不只是连续生成的一串看似合理的图像。

Create, edit and star in videos with two Google Vids updates

Google Vids 新增 Gemini Omni 与个人头像

Google 正在将 AI 视频创作扩展到 Workspace 中，推出基于提示词的剪辑生成与编辑功能，以及可由自拍和录音创建的自定义头像。

Read article

Lyra 2.0 如何尝试修复这一问题

报道称，Lyra 2.0 会为每一帧生成的内容存储 3D 几何信息。当虚拟摄像机回到先前到达过的区域时，系统会检索那些较早的帧，并利用其中的空间信息作为参考素材。图像合成仍然由视频模型处理，但存储的几何信息旨在保持方向感，并帮助维持连续性。

这种设计针对的是早期系统的第一个主要弱点：遗忘。如果系统能够召回先前见过的区域，并通过存储的几何信息重新锚定它们，那么生成环境就更有可能在更长轨迹中保持连贯。

第二个问题是漂移，即细小的生成误差会一步步累积。根据报道，Nvidia 的解决方案是让模型在自身有缺陷的输出上进行训练，使其学会识别并修正退化，而不是简单继承这些问题。这是一种务实策略。与其假装生成过程会始终干净无误，不如在训练中让模型接触到它大概率会制造出来的噪声。

基准结果与竞争定位

Nvidia 表示，Lyra 2.0 在两个数据集上的基准测试中，优于包括 GEN3C、Yume-1.5 和 CaM 在内的六种竞争方法。报道没有给出这些评测的完整细节，因此这项竞争性结论应被视为摘要，而不是完整的技术对比。尽管如此，其意义已经足够明确：Nvidia 正将 Lyra 2.0 描绘为长距离场景生成领域中的一款领先候选，而不是实验室里的奇观。

这种定位很重要，因为这个领域竞争激烈。许多团队都在研究图像到 3D、视频世界模型以及面向仿真的生成系统。要脱颖而出，方法不仅要有吸引人的演示，还必须在移动过程中持续保持场景质量。

为什么机器人是最直接的应用场景

报道中最重要的细节之一，是它可以直接导出到 Isaac Sim 这类物理引擎中。这表明 Nvidia 的目标并不只是用于可视化或虚拟导览的内容生成，而是面向具身 AI。

机器人训练常常受制于数据瓶颈。现实世界数据采集成本高，而手工构建仿真环境又很耗时。如果一个系统能从单张照片生成可信、可探索的 3D 空间，就有助于更快扩充训练数据，尤其适用于环境多样性很重要的导航或交互任务。

从实际操作看，这意味着开发者可以从稀疏的视觉参考出发，快速扩展成可用的仿真场景。这样的结果不会取代真实世界验证，但可以扩大预训练和测试流程的规模。

这项技术解决了什么，又没有解决什么

Lyra 2.0 解决了一个真实的技术障碍，但不应把它误认为是完整的物理真实感。生成一个连贯场景是一回事；生成一个在几何、材质、动力学以及物体可供性方面都足够准确、能可靠迁移到真实机器人的场景，则是另一回事。

这种区别很重要，因为仿真的价值只取决于其中学到的行为能否在现实中成立。即便视觉连贯性非常出色，也不自动意味着物理行为有用，或物体交互是正确的。Nvidia 的报告通过强调导出到物理引擎，间接承认了这一点，这也暗示 Lyra 的输出是更广泛仿真栈中的一部分，而不是单独的完整方案。

迈向可扩展的世界生成

即便如此，这项工作仍然值得关注，因为它推动该领域朝着一种更可扩展的机器人训练世界构建方式前进。长路径连贯性、显式几何回忆，以及对漂移敏感的训练，这三者的结合，正好针对了早期系统所受限制的关键问题。如果这些优势能在更广泛的使用中得到验证，Lyra 2.0 可能有助于降低机器人开发中的一项隐性成本：构建足够多的世界供机器人学习。

这就是其更深层的意义。机器人进步不仅关乎更好的策略和更大的模型，也关乎更好的环境。机器人只能从它所看到的世界中学习，而更好地生成这些世界，正日益成为一个独立且重要的 AI 问题。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

Nvidia 的 Lyra 2.0 旨在将一张照片变成可行走的机器人训练世界