从世界模型到机器人控制
NVIDIA宣布推出Cosmos Policy,这是其不断增长的世界基础模型家族的新增功能,它填补了环境理解与物理机器人控制之间的空白。该模型建立在Cosmos Predict-2之上,Cosmos Predict-2是NVIDIA现有的世界基础模型,它生成关于物理环境随时间如何变化的预测。Cosmos Policy采用这些预测,并将其转换为机器人可以用来执行复杂操纵任务的可操作控制信号。
该公告代表了NVIDIA在机器人AI方法上的重大进展。Cosmos Policy不是通过广泛的演示或奖励工程来训练机器人执行特定任务,而是利用对物理动力学的广义理解,以实现更灵活和自适应的机器人行为。原则上,配备Cosmos Policy的机器人应该能够以对物体如何相互作用以及与机器人自身相互作用的基本理解来处理新的操纵任务。
Cosmos Policy如何工作
本质上,Cosmos Policy是应用于Cosmos Predict-2世界基础模型的后训练层。Cosmos Predict-2在展示现实世界物理相互作用的大量视频数据上进行训练,并学会预测给定场景中接下来会发生什么。例如,给定一张桌子上有物体的图像,该模型可以预测如果这些物体被推动、提起或掉落,它们将如何移动。
Cosmos Policy通过添加控制策略来建立在这种预测能力之上,该策略确定机器人应该采取什么行动来实现所需的结果。该系统通过以下过程工作:
- 场景理解:机器人使用其摄像头和传感器捕获其环境的当前状态,Cosmos Predict-2构建场景物理动力学的内部表示。
- 目标规范:操作员或更高级别的规划系统指定机器人应该完成的任务,例如拿起物体、将其放在特定位置或组装组件。
- 动作生成:Cosmos Policy使用世界模型对物理的理解来生成一系列电机命令,这些命令将移动机器人的手臂和夹爪以实现目标。
- 实时适应:当机器人执行任务时,系统会根据新的传感器数据不断更新其预测,允许其在环境意外变化时调整其行动。
这种方法从根本上不同于传统的机器人编程(工程师手动指定每个动作)或纯强化学习(机器人必须完全通过试错学习)。通过从对物理动力学的预训练理解开始,Cosmos Policy为机器人在新任务上提供了重大优势。
为什么世界基础模型对机器人技术很重要
世界基础模型的概念多年来在机器人技术和AI研究社区中获得了关注,但NVIDIA的Cosmos系列代表了该想法最具商业野心的实现之一。核心见解是在物理世界中运作的机器人需要的不仅仅是模式识别或语言理解。它们需要对物理的直观理解,即允许人类预测放在桌子边缘的玻璃杯会掉下来,或者重物需要比轻物更多力量来抬起的那种理解。
传统的机器人学习方法一直在努力解决这个问题。强化学习可以为特定任务产生令人印象深刻的结果,但知识往往不能很好地转移到新情况。模仿学习需要为每个新任务提供广泛的演示数据。手动编程对于经常变化的环境来说太不灵活。
世界基础模型提供了通过这些限制的潜在路径。通过在大量真实世界视频数据上训练单个模型,生成的系统开发了对物理动力学的一般理解,可以应用于许多不同的任务和环境。Cosmos Policy是NVIDIA将这种一般理解转化为实际机器人控制的尝试。
与NVIDIA机器人生态系统的集成
Cosmos Policy不是孤立存在的。它设计用于与NVIDIA更广泛的机器人软件堆栈集成,包括用于仿真的Isaac Sim、用于机器人操作系统集成的Isaac ROS和用于边缘计算的Jetson平台。这种生态系统方法是NVIDIA战略的关键部分,因为控制策略只有在能够有效运行在机器人实际携带的硬件上并与管理机器人群的软件系统通信时才有用。
NVIDIA表示Cosmos Policy已在模拟和现实世界的操纵任务中进行了验证,包括拾取放置操作、机器人臂之间的物体交接以及需要精确对齐组件的组装任务。该公司正在通过其NVIDIA AI平台向开发人员提供该模型,目的是实现快速实验和在广泛机器人应用中的部署。
竞争意义
Cosmos Policy的推出使NVIDIA在机器人控制软件市场上处于更具攻击性的位置,该市场传统上由专业机器人公司和研究机构主导。通过提供具有内置控制功能的预训练基础模型,NVIDIA降低了希望部署复杂操纵机器人但缺乏内部AI专业知识来从头构建这些功能的公司的进入壁垒。
这个领域的竞争对手包括拥有自己的机器人基础模型系列的Google DeepMind,以及许多从事可泛化机器人学习的初创公司。NVIDIA的优势在于其集成的硬件软件生态系统和庞大的安装GPU计算基础设施,这提供了训练和运行这种复杂性模型所需的计算基础。
对于整个机器人行业来说,Cosmos Policy的出现表明,通用机器人操纵时代(单个机器人可以处理各种物理任务而无需特定任务编程)正在从研究愿景转向商业现实。这种转变发生的速度将取决于Cosmos Policy等系统在真实世界部署中的可靠性和性能,这是业界将在未来几个月和几年中回答的问题。
本文基于The Robot Report的报道。阅读原文。


