从隐身模式到聚光灯下
一家新的机器人AI公司以机器人行业历史上最大的首轮融资之一的规模宣布融资。Rhoda AI已融资4.5亿美元,用于商业化一套让机器人通过观看视频演示而非传统编程或手动遥操作来执行复杂任务的系统。
该公司表示其方法大大减少了教机器人新技能所需的时间和专业知识,可能解决了机器人部署的最大瓶颈:编程问题。如今,让机器人执行新任务通常需要数周或数月的专业工程工作。Rhoda AI声称其系统可以在几小时内完成相同的工作。
通过观察学习
Rhoda AI的核心技术是在展示人类执行物理任务的大量视频数据上训练的foundation model。该模型不仅学习动作的外观,还学习连接意图与已完成任务的基础物理学、空间关系和因果链。
当用户想教装有Rhoda系统的机器人新技能时,他们只需向机器人展示执行该任务的视频,无论是来自智能手机录制、教学视频还是现有监控录像。AI系统分析视频,提取相关动作及其顺序,将其映射到机器人的物理能力上,并生成一个control policy,使机器人能够在自己的环境中复制该任务。
这代表了从当前方法的根本转变。如今大多数机器人训练依赖于明确编程,即工程师手动编码每个动作和决策点,或reinforcement learning,机器人通过在模拟中数百万次的试错尝试来学习,然后再将技能转移到物理世界。两种方法都耗时、昂贵且需要专业知识。
跨越现实差距
Rhoda AI做出的最重要主张之一是其系统设计用于超越受控的实验室演示并进入真实环境。这解决了机器人专家所说的sim-to-real gap或在这种情况下的video-to-real gap,即将在一个背景下学到的技能转移到混乱、不可预测的实际部署条件中的挑战。
真实环境在无数方面不同于训练场景。光线变化、物体位置不同、表面有不同的摩擦特性,意外的障碍物也会出现。在受控环境中完美运行的系统在这些条件甚至稍微变化时往往会灾难性地失败。
Rhoda AI表示通过结合稳健的视觉理解和adaptive control来解决这个问题。foundation model已在足够多样化的视频数据上进行训练,因此它开发了物理学和物体相互作用的通用理解,而不是记忆特定场景。在新环境中部署时,系统会根据实时传感器反馈持续调整其control policy。
融资和支持者
4.5亿美元的融资轮对于从隐身模式中脱颖而出的公司来说是非凡的,反映了投资者对机器人AI公司的强烈兴趣。这轮融资使Rhoda AI成为历史上资金最充足的机器人初创公司之一,与同样最近吸引数亿美元融资的Figure AI和1X Technologies等公司相提并论。
融资规模表明投资者认为Rhoda AI的方法对长期以来一直在努力解决可扩展性问题的机器人行业可能具有变革性。全球工业机器人的安装基数仅约四百万台,是许多分析师认为如果机器人更易于编程和部署,市场可能支持的数量的一小部分。
应用和目标市场
Rhoda AI最初的目标是制造、物流和仓储,这些领域的重复性物理任务非常适合机器人自动化,但任务和环境的多样性限制了采用。例如,处理数千种不同产品的仓库传统上需要为每件商品的拾取和放置要求进行单独编程。基于视频的学习可能能够以工程工作的一小部分来处理这种多样性。
该公司还在探索食品服务、农业和医疗保健中的应用,这些领域劳动力短缺严重,快速教机器人新任务的能力可能特别有价值。例如在农业中,不同的农作物需要不同的收获技术,通过展示视频来训练机器人正确的收获方式可能会使机器人农业更加实用。
挑战和怀疑
尽管融资印象深刻且声明宏大,仍存在重大挑战。机器人行业历史上有很多初创公司在受控环境中展示了令人印象深刻的能力,但在商业规模上的可靠性交付上遇到了困难。
基于视频的学习面临固有限制。视频捕捉视觉信息,但忽略了许多对机器人执行至关重要的物理任务方面:握住物体所需的精确力度、引导精细操纵的触觉反馈以及处理易碎物品所需的柔韧性。Rhoda AI的系统在处理这些非视觉方面的表现如何可能会决定其现实世界的可行性。
该公司还需要证明其方法可以在各种机器人硬件上工作,而不仅仅是为其软件优化的特定平台。大多数商业机器人应用需要与现有设备和基础设施集成,跨多样化硬件配置部署的能力对于广泛采用至关重要。
机器人的新范式
无论Rhoda AI的具体技术在规模上的表现如何,该公司的出现标志着机器人行业思考编程问题方式的更广泛转变。foundation model、视频理解和adaptive control的结合代表了与传统机器人管道根本不同的方法,它所吸引的巨额融资表明该行业认为机器人可教性的突破可能即将到来。
本文基于The Robot Report的报道。阅读原文。

