从视频生成到共享模拟

AI 实验室 Odyssey 推出了 Agora-1,这是一种世界模型,能够让最多四名玩家同时进入同一个由 AI 生成的环境。该公司使用 Nintendo 64 经典游戏 GoldenEye 演示了这一系统,将游戏变成一场实时多人模拟,每位参与者都能看到一个不同的视角,而这些视角是基于同一底层状态实时生成的。

这一发布之所以引人注目,是因为大多数公开的世界模型演示都集中在单一活跃用户身上。相比之下,Agora-1 试图解决一个更难的问题:在多人同时在同一个生成世界中行动时,如何保持多个视角的一致性。

Agora-1 的结构

根据原文,Odyssey 将系统拆分为两个模型。一个模型持续模拟共同的游戏状态,并从原始游戏的内部状态中学习玩家移动和行动时世界如何变化。第二个基于扩散的模型则基于这一共享状态,为每位玩家渲染各自的视觉视角。

这种分离是设计的核心。传统视频生成器会产出固定片段或响应式画面,但不会维持一个明确而持久的模拟。Agora-1 的行为更像一个经过学习的游戏引擎。模拟层负责追踪世界中正在发生的事情;渲染层则从不同摄像机位置将这个世界转化为画面。

由于状态是被显式管理的,Odyssey 表示该系统也可以在保留原游戏机制的同时生成新关卡。这说明公司并不是简单地对录制的游戏画面重新风格化,而是在构建一种至少能捕捉部分底层玩法规则的模型。

为什么多智能体一致性很难

原文提到,像 Multiverse 或 Solaris 这样的早期多智能体方法,尤其在玩家彼此失去视野时表现不佳。在共享世界中,一致性失效会很快暴露出来。如果一名玩家打开一扇门、开了一枪或穿过一个房间,其他玩家应该能够从自己的位置感受到相互兼容的后果。如果系统开始漂移,幻觉就会破裂。

Agora-1 正是作为这一问题的解法被提出的。通过让游戏状态保持显式且共享,Odyssey 试图确保不同的渲染结果只是同一世界的同步视图,而不是松散相关的幻觉。实际上,公司是在把“发生了什么”和“每位参与者看到什么”分开,这正是游戏引擎几十年来通过状态复制和客户端渲染一直在处理的区别。

真正的新意在于,用学习得到的模型取代硬编码的模拟和渲染管线。

不只是游戏演示

GoldenEye 这个场景让 Agora-1 有了一个一眼就能认出的展示,但 Odyssey 对这项技术的定位更广。公司还推出了一个相关系统 Starchild-1,被描述为一种交互式音视频世界模型,能够在响应持续文本输入的同时生成同步的画面和声音。与 Agora-1 不同,Starchild-1 侧重单用户,但加入了语音和环境音。原文称目前还没有公开演示,只有示例视频和技术论文。

这两个发布一起表明,Odyssey 正在从被动生成转向交互式环境。这一方向很重要,因为世界模型最有价值的一些应用可能根本不在电影式内容中,而是在需要智能体、机器人或人类行动、观察后果并进行协作的模拟环境里。

在 AI 训练和机器人中的潜在用途

Odyssey 明确指出,AI 智能体训练和协作机器人是未来应用方向。逻辑很直接。如果一个系统能够模拟一个包含多个参与者的持久共享环境,它就可能成为协调、规划和具身决策的沙盒。

在机器人领域,多智能体一致性不是装饰性功能。协同工作的机器人需要对空间、物体以及彼此的行为形成兼容的认知。一个能够在不断变化的视角下维持这些关系的学习型世界模型,不仅对合成训练有用,甚至可能有助于在部署前测试策略。

这同样适用于学习协作、竞争或沟通的 AI 智能体。单用户沙盒很有用,但现实中的许多任务都涉及多个参与者共享同一个环境。Agora-1 是直接对这种状态进行建模的早期尝试。

它在竞争格局中的位置

原文将 Agora-1 与 OpenAI 的 Sora 和 Google 的 Veo 3 等视频生成器进行对比,这些工具生成的是片段,而不是持久模拟。文章还提到 Google 的 Genie 3,认为它是在更广义世界模型领域中更知名的竞争者。这样的比较很有帮助,因为它澄清了产品类别。Agora-1 的重点并不是更好看的视频,而是在一个共享潜在世界中的持续交互。

这是一项更难的问题,评估标准也不同。画面质量很重要,但一致性、响应速度以及世界规则随时间的稳定性同样重要。

早期但有意义的一步

Agora-1 目前仍只是一个演示系统,原始材料也没有声称它已达到可生产状态。不过,它确实指向了生成式 AI 的一个重要转变。这个领域正从生成孤立媒体输出,转向模拟可以被多人同时进入并施加影响的环境。

如果这种转变成立,其意义将远远超出怀旧式的游戏重现。共享世界模型可能成为训练智能体、原型化界面以及探索新型交互媒体的基础设施。Odyssey 的 GoldenEye 实验是一个局部展示,但它捕捉到了一个更广泛的技术转向:AI 系统开始不仅建模场景,也建模具有连续性、规则和多个视角的世界。

本文基于 The Decoder 的报道。阅读原文

Originally published on the-decoder.com