World Action Modelsはロボットが動く前に結果をシミュレートする助けになる可能性がある

ロボット研究者は反応的なAIを超えようとしている

現在のロボットシステムの根本的な弱点の一つは、多くがカメラに映ったものと、機械が次に取るべき動きとの直接的な対応関係を学習していることだ。これでも有用な振る舞いは生み出せるが、理解の面では空白が残る。ロボットは、ある画像の後にどの行動が続きやすいかは学べても、その行動が世界をどう変えるのかは学べない。

提供された報道で紹介された新しいレビュー論文は、World Action Models、略して WAMs は、そのギャップを埋めるために設計されていると論じている。観測と行動を対応付けるだけでなく、これらのモデルは行動を取った後に環境がどう変化しそうかも予測する。実際には、移動する前に短期的な結果をシミュレートする手段をロボットに与えることになる。

それが重要な理由

実用上の期待は大きい。ロボットが実行前に自らの動きの結果をモデル化できれば、未知の物体や環境にもよりうまく一般化できるはずだ。これはロボット工学の大きな課題であり、システムは狭い訓練条件ではうまく動いても、環境が変わると性能が落ちやすい。

提供されたレポートは、もう一つの利点として学習データも挙げている。従来のロボットシステムは、ロボットの行動がラベル付けされたデータセットに依存することが多く、作成には費用も時間もかかる。World Action Models は、ラベルのない日常動画、第一人称映像も含めて学習できる可能性がある。命令だけを学ぶのではなく、行動と変化する視覚世界との関係を学ぶからだ。

Create, edit and star in videos with two Google Vids updates

Google Vids が Gemini Omni とパーソナルアバターを追加

Google は、Workspace 内の AI 動画制作を拡張し、プロンプトベースのクリップ生成と編集に加え、セルフィーと音声録音から作成するカスタムアバターを導入した。

Read article

二つの主要な設計系統が現れている

レビューによれば、このモデル群に該当する論文はおよそ100本あり、著者らはそれらを二つの大きなアーキテクチャ系統に分類している。一方はまず予測された未来の動画を生成し、その予測から制御コマンドを導く。もう一方は、視覚入力と行動を並列に統合処理する。

この区分が重要なのは、この分野が孤立した実験から、内部構造を持つ認識可能な研究領域へと成熟しつつあることを示しているからだ。この調査は、2024年以降に広がってきたこれらの系統をたどり、予測と制御の統合を目指すシステムを比較するための共通の枠組みをロボット研究者に与えている。

純粋なワールドモデルを超えて

提供された記事は重要な違いを指摘している。純粋な動画生成器はもっともらしい未来のフレームを生成できるが、それだけでは制御に役立つとは限らない。World Action Models は、環境の次の状態を予測すると同時に、その予測を行動生成に直接結びつけることで、二つの要件を同時に満たすことを目指している。

そのため WAMs は、ロボット分野が印象的なデモからより信頼できる身体化システムへ移行しようとする中で特に重要になる。近い未来を思い描き、それを運動の意思決定につなげられるロボットは、単なる反射ではなく先を見越して行動する存在に近い。

より適応的なロボットへの一歩

World Action Models はまだ研究フレームワークであり、完成した製品カテゴリではない。しかし、提供された報道で述べられたこの調査は、次のロボティクスAIの波において重要な整理概念になる可能性を示している。もしこのアプローチが意図どおり機能すれば、ロボットはより壊れにくくなり、高度に精選されたラベルへの依存が減り、行動の前に起こりうる結果を推論することで、未知の環境にもよりうまく対応できるようになるかもしれない。

この記事は The Decoder の報道に基づいている。元記事を読む。

Originally published on the-decoder.com

World Action Modelsは、ロボットに結果をよりよく理解させることを目指している