NIST提出多年首个通用人形机器人基准

距DARPA十年后，通用测量再次受到推动

人形机器人热潮带来了大量演示、融资轮次和营销视频，但它并没有带来一种被广泛接受的平台比较方式。NIST现在正试图改变这一点。根据所提供的报道，该机构提议了一套全面的人形机器人基准，称其为自2015年DARPA Robotics Challenge以来，该类别首个标准化性能基准。

时机并非偶然。人形机器人初创公司和工业巨头都在努力证明，他们的系统可以在工厂、仓库、医疗环境，最终也能在家庭中运行。但如果没有共同的测试方法，就很难判断某个系统是否真的比另一个更有能力，还是只是更适合拍视频。

这项拟议基准被描述为一套低负担的行走和操作任务，建立在此前已定义并标准化的测试方法和性能指标之上。NIST表示，这些任务旨在反映商用人形机器人在工业、家庭、医疗及其他环境中的最低预期能力。

原文指出，该基准旨在为当前行业领先的机器人建立能力测量，同时为研究人员和制造商提供一套共享任务。这一点很重要，因为基准测试并不需要涵盖所有高级技能才有价值。它需要建立一个共同底线，从而在可重复条件下暴露系统真正能做什么。

X Square Robot 发布了 XRZero-G0 和一套 2,000 小时的多模态数据集，旨在减少具身 AI 系统对真实机器人训练数据的需求。

NIST表示，该基准将考察与领域无关的移动能力和灵巧性、协同行走与操作任务、需要全身感知与控制的狭小空间操作，以及最低限度的推理和场景理解。这种组合很有说明性。它表明该机构试图测试的不只是单独的行走或抓取，而是人形机器人在严格控制演示之外之所以相关的协调行为。

这对整个行业来说是一个关键转变。投资者已经向特斯拉、Figure、Agility、Apptronik和Unitree等公司的平台投入资金，但这个领域仍缺少一个基本问题的标准答案：这些机器到底能可靠地做什么？基准测试不能解决商业化问题，但它们能让主张更容易被检验，也更难被夸大。

人形机器人的市场逻辑同样依赖信任，而不仅仅是工程能力。物流、制造、医疗和服务环境中的客户需要知道，机器人是否能以可预测、安全并且足够稳定的方式执行任务，从而值得部署。标准化测试有助于缩小技术雄心与购买信心之间的差距。

所提供的报道还指出，NIST是在与行业和研究界合作下设计这一装置，并在制定流程共识时征集参与者。这种协作结构提高了该基准不只是纸面提案的可能性。真正决定标准是否能塑造市场的，是采用，而不仅仅是发布。

人形机器人行业仍有重大的技术和经济障碍要克服。但如果NIST能够围绕一个共享基准获得广泛参与，这个领域或许终于能拥有一个适合其商业雄心的测量体系。

This article is based on reporting by The Robot Report. Read the original article.

Anthropic首席执行官Dario Amodei表示，透明度规则已不再足够，并呼吁对前沿AI系统进行强制性的第三方审计。

Originally published on therobotreport.com