机器人技术中的数据问题

教导机器人在物理世界中操纵物体历来需要大量人类收集的演示数据。Google DeepMind的RT-1系统需要由人类操作员在17个月内收集的130,000集数据。DROID数据集包括来自13个研究机构收集的76,000条遥操轨迹——代表大约350小时的人力。这些数字反映的不仅是挑战的规模,还有它产生的经济集中:只有少数资源充足的实验室才能负担收集训练具竞争力的操纵系统所需的数据。

Allen人工智能研究所——Ai2——提出了一个不同的模型,即MolmoBot,一个主要通过虚拟模拟数据而不是物理演示进行训练的机器人操纵系统。研究表明这个在模拟中训练的模型可以将其能力转移到实际的物理机器人系统,这一结果可能会大大民主化对有能力的机器人操纵AI的访问。

为什么模拟历来未能转移

模拟性能和现实性能之间的差距——'模拟到现实差距'——一直是一个持久的障碍。物理机器人会遇到丰富的感官输入、环境可变性和接触动力学,模拟环境难以真实复制。完全在模拟中训练的机器人通常无法处理其训练环境抽象化的现实复杂性。

以前弥合这一差距的尝试依靠域随机化——故意改变模拟参数,如照明、物体纹理和物理属性,以强制机器人开发在各种条件下泛化的表示。这种方法在运动中取得了部分成功,但对需要精细运动控制和精确接触力管理的灵巧操纵任务效果较差。

MolmoBot的方法

MolmoBot基于Ai2的Molmo视觉语言模型,为系统提供了对视觉场景和语言指令的丰富理解。关键创新是如何生成和管理用于操纵训练的模拟数据。该团队开发了一个管道,用于生成具有足够物理保真度的多样化操纵场景,以训练可泛化的技能,而不是使用单个模拟环境。

该系统将改进的接触动力学模拟保真度与表示学习方法结合起来,该方法明确构建了对模拟环境和真实环境之间视觉差异的不变性。机器人学会识别任务相关的视觉特征——夹持器位置、被操纵的物体、目标位置——这些特征在模拟和现实中看起来相似,而不是学习编码特定于模拟的视觉伪影的表示。

民主化论证

基于模拟的训练的经济论证是简单明了的。生成模拟数据需要计算基础设施,但不需要物理机器人、受过训练的人类操作员,也不需要聚合大型演示数据集所需的机构协调。一个可以访问计算集群的小型大学研究团队可以在资源充足的实验室收集数万次物理演示所需的时间内生成数百万个模拟操纵情节。

如果在模拟中训练的模型能够匹配或接近物理训练系统的性能——MolmoBot的结果表明这对于一类有意义的操纵任务是可以实现的——那么机器人操纵AI的能力就变得对更广泛的研究社区可访问。

开源发布

与Ai2的研究哲学一致,MolmoBot系统及其模拟训练管道正在开放发布。模拟操纵轨迹数据集、训练的模型权重和模拟环境工具都向研究社区提供——这种方法与领先该领域的商业机器人AI项目的专有数据和模型策略形成了直接对比。首席执行官Ali Farhadi明确表示了目标:通过全球研究社区可以共同构建的工具构建推进科学的AI。

本文基于AI News的报道。阅读原文

Originally published on artificialintelligence-news.com