世界行动模型或可帮助机器人在移动前模拟后果

机器人研究人员正在突破反应式 AI 的局限

当今机器人系统的核心弱点之一是，许多系统学习的是从摄像头看到的内容到机器下一步应做动作之间的直接映射。这种方式可以产生有用的行为，但在理解层面留下了空白。机器人可能学会某种图像之后通常会接什么动作，却没有学会自己的动作如何改变世界。

所提供报道中提到的一篇新综述论文认为，世界行动模型，简称 WAMs，正是为了弥补这一差距而设计的。与其只把观察与动作配对，这些模型还会预测在采取某个动作后环境可能如何变化。实际上，它们为机器人提供了一种在移动之前模拟短期后果的方法。

其实际价值相当可观。如果机器人能够在执行动作前建模其结果，就更有可能泛化到陌生的物体和环境。这是机器人领域的一大挑战，因为系统往往在狭窄的训练条件下表现良好，但一旦环境变化，性能就会下降。

所提供报道还指出了另一个优势：训练数据。传统机器人系统往往依赖带有机器人动作标注的数据集，而这类数据集制作成本高、速度慢。世界行动模型可以从未标注的日常视频中学习，包括第一视角素材，因为它们学习的不只是指令，而是动作与不断变化的视觉世界之间的关系。

据报道，Anthropic禁止在现场求职面试中使用AI辅助，除非获得明确许可，因为该公司试图评估应聘者独立推理的能力。

根据这篇综述，大约有一百篇论文符合这一模型类别，作者将它们分为两大类架构。一类先生成预测的未来视频，再根据该预测推导控制指令。另一类则并行处理视觉输入与动作。

这种划分很重要，因为它显示这一领域正从孤立实验发展为具有内部结构、可识别的研究方向。该综述梳理了这些分支自 2024 年以来的扩展情况，为机器人研究人员提供了一个共享框架，用于比较那些试图将预测与控制结合起来的系统。

所提供文章指出了一个重要区别。纯视频生成器可以生成看似合理的未来帧，但这本身并不意味着它对控制有用。世界行动模型旨在同时满足这两项要求：在预测环境下一状态的同时，将这一预测直接与动作生成联系起来。

这使得 WAMs 在机器人领域努力从令人印象深刻的演示迈向更可靠的具身系统时尤为相关。一个能够想象短期未来并将其与电机决策联系起来的机器人，更接近于带着前瞻性行动，而不仅仅是依靠反射。

Kaikaku.AI 的新研究认为，食物推荐系统应区分菜谱中常一起出现的食材与在化学上相似的食材。

世界行动模型仍然只是一个研究框架，而不是成熟的产品类别。但所提供报道中描述的这项综述表明，它们可能成为下一波机器人 AI 的重要组织性理念。如果这种方法按预期发挥作用，机器人或许会变得不那么脆弱，对高度筛选的标注数据依赖更低，并且能够通过推演可能的后果来应对陌生环境，从而在行动前作出更合理的判断。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com