世界モデルからロボット制御へ
NVIDIAはCosmosPolicy を発表し、環境理解と物理的ロボット制御の間のギャップを埋める世界基礎モデルの成長する家族への新しい追加です。このモデルはNVIDIAの既存の世界基礎モデルであるCosmosPredict-2 の上に構築されており、物理的な環境が時間とともにどのように変わるかについての予測を生成します。CosmosPolicy はこれらの予測を取り出し、ロボットが複雑な操作タスクを実行するために使用できる実行可能な制御信号に変換します。
この発表は、ロボティクスAIに対するNVIDIAのアプローチの重要な進化を表しています。広範なデモンストレーションまたは報酬エンジニアリングを通じて、ロボットに特定のタスクを実行するように訓練するのではなく、CosmosPolicy は物理的ダイナミクスの一般化された理解を活用して、より柔軟で適応的なロボット動作を可能にします。原則として、CosmosPolicy を備えたロボットは、物体がどのようにお互いと相互作用し、ロボット自身の体と相互作用するかについての基本的な理解を持って、新しい操作タスクにアプローチできるはずです。
CosmosPolicy がどのように機能するか
本質的に、CosmosPolicy は世界基礎モデルCosmosPredict-2 に適用される事後学習層です。CosmosPredict-2 は実際の物理的相互作用を示す大量のビデオデータで訓練され、特定のシーンで次に何が起こるかを予測する方法を学習します。たとえば、その上にオブジェクトがあるテーブルの画像が与えられた場合、モデルはこれらのオブジェクトが押された場合、持ち上げられた場合、または落とされた場合にどのように動くかを予測できます。
CosmosPolicy はこの予測機能に基づいており、ロボットが目的の結果を達成するために取るべき行動を決定する制御ポリシーを追加します。このシステムは次のプロセスを通じて機能します:
- シーン理解: ロボットはカメラとセンサーを使用して環境の現在の状態をキャプチャし、CosmosPredict-2 はシーンの物理的ダイナミクスの内部表現を構築します。
- 目標仕様: オペレーターまたは上位レベルの計画システムがロボットが達成すべきことを指定します。たとえば、オブジェクトを拾い上げたり、特定の場所に配置したり、コンポーネントを組み立てたりします。
- アクション生成: CosmosPolicy は世界モデルの物理学の理解を使用して、ロボットの腕とグリッパーを動かして目標を達成するモーターコマンドのシーケンスを生成します。
- リアルタイム適応: ロボットがタスクを実行すると、システムは新しいセンサーデータに基づいて予測を継続的に更新し、環境が予期せずに変わった場合にアクションを調整できるようにします。
このアプローチは、エンジニアがすべての動きを手動で指定する従来のロボット プログラミング、またはロボットが完全に試行錯誤を通じて学習する必要があるピュア強化学習とは根本的に異なります。物理的ダイナミクスの事前学習された理解から始めることで、CosmosPolicy はロボットに新しいタスクで大きなヘッドスタートを与えます。
世界基礎モデルがロボティクスにとって重要な理由
世界基礎モデルの概念は、ここ数年間、ロボティクスおよびAI研究コミュニティで注目を集めていますが、NVIDIAのCosmosファミリーは、このアイデアの最も商業的に野心的な実装の1つを表しています。中核となるアイデアは、物理的な世界で動作するロボットは、パターン認識や言語理解以上のものが必要であるということです。テーブルの端に置かれたグラスが落ちることを予測したり、重いオブジェクトは軽いオブジェクトよりも持ち上げるのに力が必要であることを人間が理解できるようにする、物理学の直感的な理解が必要です。
ロボット学習への従来のアプローチはこれと戦ってきました。強化学習は特定のタスクに対して印象的な結果を生み出すことができますが、その知識は新しい状況に必ずしも転移しません。模倣学習には、新しいタスクごとに広範なデモンストレーションデータが必要です。そして、手動プログラミングは、頻繁に変わる環境には柔軟性がありません。
世界基礎モデルは、これらの制限を通過する可能性のある道を提供します。大量の実世界ビデオデータで単一のモデルをトレーニングすることにより、結果のシステムは、多くの異なるタスクと環境に適用できる物理的ダイナミクスの一般的な理解を開発します。CosmosPolicy はNVIDIAがこの一般的な理解を実用的なロボット制御に変えようとする試みです。
NVIDIAのロボティクスエコシステムとの統合
CosmosPolicy は孤立して存在するわけではありません。シミュレーション用のIsaacSim 、ロボット作業システム統合用のIsaacROS 、エッジコンピューティング用のJetson ハードウェアプラットフォームを含むNVIDIAのより広いロボティクスソフトウェアスタックと統合するように設計されています。このエコシステムアプローチはNVIDIA戦略の重要な部分です。制御ポリシーは、ロボットが実際に運ぶハードウェアで効率的に実行でき、ロボットフリートを管理するソフトウェアシステムと通信できる場合にのみ有用だからです。
NVIDIAは、CosmosPolicy がシミュレートされた操作タスクと実世界の操作タスクの両方で検証されていると述べており、ピック・アンド・プレイス操作、ロボットアーム間のオブジェクトハンドオフ、およびコンポーネントの正確な位置合わせが必要なアセンブリタスクが含まれます。会社はNVIDIAAIプラットフォームを通じて開発者にモデルを利用可能にしており、幅広いロボティックアプリケーション全体での迅速な実験と展開を可能にすることを目的としています。
競争的影響
CosmosPolicy の導入により、NVIDIAはロボット制御ソフトウェア市場でより積極的にポジショニングされ、このマーケットは従来、専門的なロボティクス企業と研究機関によって支配されてきました。事前学習された世界モデルと組み込みの制御機能を提供することにより、NVIDIAは、高度な操作ロボットをデプロイしたいが、これらの機能をゼロから構築するための社内AIの専門知識がない企業の参入障壁を低くしています。
このスペースの競合他社には、独自のロボティクス基礎モデルラインを持つGoogleDeepMind と、一般化可能なロボット学習に取り組んでいるいくつかのスタートアップが含まれます。NVIDIAの利点は、統合されたハードウェア・ソフトウェアのエコシステムとこの複雑さのモデルをトレーニングして実行するために必要な計算基盤を提供する、大規模なインストール済みGPUコンピューティングインフラストラクチャベースにあります。
ロボティクス業界全体として、CosmosPolicy の到着は、単一のロボットがタスク固有のプログラミングなしに広範な物理的タスクを処理できるという汎用ロボット操作の時代が、研究の熱望から商業的現実へと移行していることを示唆しています。この移行がどの程度迅速に発生するかは、実世界の展開でCosmosPolicy などのシステムの信頼性とパフォーマンスに依存します。これは業界が今後数か月と数年で答える必要がある質問です。
この記事は TheRobotReport のレポーティングに基づいています。元の記事を読む.


