機密から注目の的へ

新しいロボットAI企業がロボット産業の歴史における最大級のデビュー資金調達ラウンドで機密解除されました。Rhoda AIは従来のプログラミングや手動teleoparationではなく、ビデオ演示を見ることでロボットに複雑なタスクを実行するよう訓練するシステムを商業化するために4億5000万ドルを調達しました。

同社は、その手法がロボットに新しいスキルを教えるのに必要な時間と専門知識を劇的に削減し、ロボット展開の最大のボトルネックの1つを解決する可能性があると述べています:プログラミング問題です。今日、ロボットに新しいタスクを実行させるには、通常数週間または数ヶ月の専門的なエンジニアリング作業が必要です。Rhoda AIは、そのシステムが数時間で同じことを達成できると主張しています。

観察による学習

Rhoda AIの中核技術は、人間が物理的タスクを実行している膨大な量のビデオデータで訓練されたfoundation modelです。このモデルは、動作がどのように見えるかだけでなく、意図と完了したタスクを結ぶ基礎物理学、空間的関係、および因果関係を学習します。

ユーザーがRhodaを搭載したロボットに新しいスキルを教えたい場合、スマートフォンの録画、教育動画、既存の監視映像など、タスクが実行されているビデオをロボットに見せるだけです。AIシステムは動画を分析し、関連するアクションとそのシーケンスを抽出し、それをロボットの物理的能力にマッピングし、ロボットが自身の環境でタスクを複製できるようにするcontrol policyを生成します。

これは現在のアプローチからの根本的な転換を表しています。今日のロボット訓練のほとんどは、エンジニアが手動ですべての動きと決定ポイントをコード化する明示的なプログラミング、またはロボットが物理世界にスキルを転送する前にシミュレーションで数百万回の試行錯誤で学ぶreinforcement learningに依存しています。どちらのアプローチも時間がかかり、費用がかかり、専門的な専門知識が必要です。

現実ギャップの橋渡し

Rhoda AIが行っている最も重要な主張の1つは、そのシステムが制御された実験室のデモンストレーションを超えて、現実の環境で動作するように設計されているということです。これは、ロボット工学者がsim-to-real gapまたはこの場合video-to-real gapと呼ぶものに対処します。つまり、1つのコンテキストで学習したスキルを、実際の展開の混乱した予測不可能な条件に転送するという課題です。

現実世界の環境は無数の方法で訓練シナリオとは異なります。照明が変わり、オブジェクトの位置が異なり、表面の摩擦特性が異なり、予期しない障害物が現れます。制御設定で完璧に機能するシステムは、これらの条件がわずかに変化しても、しばしば劇的に失敗します。

Rhoda AIは、堅牢な視覚理解と適応制御の組み合わせを通じてこれに対処すると述べています。foundation modelは特定のシナリオを記憶するのではなく、物理学とオブジェクトの相互作用の一般化された理解を展開するのに十分に多様なビデオデータで訓練されています。新しい環境に展開するとき、システムはリアルタイムセンサーフィードバックに基づいてcontrol policiesを継続的に調整します。

資金調達と支援者

4億5000万ドルの資金調達ラウンドは、機密解除される企業としては異例であり、ロボットAI企業に対する投資家の強い関心を反映しています。このラウンドはRhoda AIをFigure AIや1X Technologiesなどの企業と同様に、ロボット産業史上最も資金が豊富なスタートアップの1つに位置付けています。

ラウンドの規模は、投資家がRhoda AIのアプローチをスケーラビリティの問題で長く苦労してきたロボット産業にとって変革的である可能性があると見ていることを示唆しています。世界のマニュアルロボットの設置ベースは約400万ユニットであり、ロボットがプログラムと展開しやすかった場合に多くのアナリストが市場が支援できると信じている量のほんの一部です。

アプリケーションとターゲット市場

Rhoda AIは最初、製造、ロジスティクス、倉庫管理をターゲットにしており、これらの分野では反復的な物理的タスクはロボット自動化に非常に適していますが、タスクと環境の多様性が採用を制限しています。たとえば、数千の異なる製品を扱う倉庫は、従来、各品目のピックアンドプレイスの要件ごとに個別のプログラミングが必要です。ビデオベースの学習はおそらくエンジニアリング努力のほんの一部でこの多様性に対処できます。

同社はまた、食品サービス、農業、医療のアプリケーションも検討しており、これらは労働力不足が深刻で、ロボットに新しいタスクをすばやく教える能力が特に価値がある分野です。農業では、たとえば、異なる作物は異なる収穫技術を必要とし、適切な収穫のビデオを見せてロボットを訓練する能力は、農業ロボット工学をはるかに実用的にすることができます。

課題とスケプティシズム

印象的な資金調達と野心的な主張にもかかわらず、重大な課題が残ります。ロボット産業には、制御設定で印象的な能力を実証したが、商業規模での信頼できるパフォーマンスの提供に苦労したスタートアップの長い歴史があります。

ビデオベースの学習は固有の制限に直面しています。ビデオは視覚情報をキャプチャしますが、ロボット実行に重要な物理的タスクの多くの側面を失います:オブジェクトを把握するのに必要な正確な力、デリケートな操作を導く触覚フィードバック、および壊れやすいアイテムを処理するために必要なコンプライアンスです。Rhoda AIのシステムがこれらの非視覚的な側面をどのように処理するかは、おそらくその現実世界の実行可能性を決定します。

同社はまた、そのソフトウェアに最適化された特定のプラットフォームだけでなく、幅広いロボットハードウェアにそのアプローチが機能することを実証する必要があります。ほとんどの商用ロボット工学アプリケーションは既存の機器とインフラストラクチャとの統合が必要であり、多様なハードウェア構成全体に展開する能力は幅広い採用に不可欠です。

ロボット工学のための新しいパラダイム

Rhoda AIの具体的なテクノロジーがスケールでどのように実行されるかに関わらず、企業の出現はロボット産業がプログラミング問題についてどのように考えるかについてのより広い転換を示しています。foundation model、ビデオ理解、および適応制御の組み合わせは、従来のロボット工学パイプラインからの根本的に異なるアプローチを表しており、それが引き付けた大規模な資金調達は、産業がロボットの教え可能性のブレークスルーが差し迫っているかもしれないと信じていることを示唆しています。

この記事はThe Robot Reportのレポートに基づいています。元の記事を読む