Des modèles mondiaux au contrôle des robots

NVIDIA a annoncé Cosmos Policy, un nouvel ajout à sa famille croissante de modèles fondamentaux mondiaux qui comble le fossé entre la compréhension de l'environnement et le contrôle physique des robots. Le modèle est construit sur Cosmos Predict-2, le modèle fondamental mondial existant de NVIDIA qui génère des prédictions sur la façon dont les environnements physiques changeront au fil du temps. Cosmos Policy prend ces prédictions et les traduit en signaux de contrôle exploitables que les robots peuvent utiliser pour effectuer des tâches de manipulation complexes.

L'annonce représente une évolution significative dans l'approche de NVIDIA à l'AI de la robotique. Plutôt que d'entraîner les robots à effectuer des tâches spécifiques par des démonstrations étendues ou l'ingénierie des récompenses, Cosmos Policy exploite une compréhension généralisée de la dynamique physique pour permettre un comportement des robots plus flexible et adaptatif. En principe, un robot équipé de Cosmos Policy devrait être capable d'aborder des tâches de manipulation nouvelles avec une compréhension fondamentale de la façon dont les objets interagissent les uns avec les autres et avec le propre corps du robot.

Comment fonctionne Cosmos Policy

Essentiellement, Cosmos Policy est une couche de post-entraînement appliquée au modèle fondamental mondial Cosmos Predict-2. Cosmos Predict-2 est entraîné sur de vastes quantités de données vidéo montrant des interactions physiques réelles, et il apprend à prédire ce qui se passera ensuite dans une scène donnée. Étant donné une image d'une table avec des objets dessus, par exemple, le modèle peut prédire comment ces objets se déplaceront s'ils sont poussés, levés ou tombés.

Cosmos Policy s'appuie sur cette capacité de prédiction en ajoutant une politique de contrôle qui détermine les actions que le robot doit entreprendre pour atteindre un résultat souhaité. Le système fonctionne selon le processus suivant:

  • Compréhension de la scène: Le robot utilise ses caméras et capteurs pour capturer l'état actuel de son environnement, et Cosmos Predict-2 construit une représentation interne de la dynamique physique de la scène.
  • Spécification du but: L'opérateur ou un système de planification de niveau supérieur spécifie ce que le robot doit accomplir, comme prendre un objet, le placer à un endroit spécifique ou assembler des composants.
  • Génération d'actions: Cosmos Policy utilise la compréhension du modèle mondial de la physique pour générer une séquence de commandes moteur qui déplaceront les bras et les pinces du robot pour accomplir l'objectif.
  • Adaptation en temps réel: À mesure que le robot exécute la tâche, le système met continuellement à jour ses prédictions en fonction des nouvelles données des capteurs, ce qui lui permet d'ajuster ses actions si l'environnement change de façon inattendue.

Cette approche est fondamentalement différente de la programmation robotique traditionnelle, où les ingénieurs spécifient manuellement chaque mouvement, ou de l'apprentissage par renforcement pur, où le robot doit apprendre entièrement par essais et erreurs. En commençant par une compréhension pré-entraînée de la dynamique physique, Cosmos Policy donne aux robots un avantage significatif sur les nouvelles tâches.

Pourquoi les modèles fondamentaux mondiaux sont importants pour la robotique

Le concept de modèles fondamentaux mondiaux gagne du terrain dans les communautés de la recherche en robotique et en AI depuis plusieurs années, mais la famille Cosmos de NVIDIA représente l'une des implémentations commerciales les plus ambitieuses de l'idée. L'idée centrale est que les robots opérant dans le monde physique ont besoin de plus que la reconnaissance de motifs ou la compréhension du langage. Ils ont besoin d'une compréhension intuitive de la physique, le type de compréhension qui permet à un humain de prédire qu'un verre placé au bord d'une table tombera, ou qu'un objet lourd nécessite plus de force pour être levé qu'un objet léger.

Les approches traditionnelles de l'apprentissage des robots ont eu du mal avec cela. L'apprentissage par renforcement peut produire des résultats impressionnants pour des tâches spécifiques, mais les connaissances ne se transfèrent souvent pas bien à de nouvelles situations. L'apprentissage par imitation nécessite des données de démonstration étendues pour chaque nouvelle tâche. Et la programmation manuelle est trop rigide pour les environnements qui changent fréquemment.

Les modèles fondamentaux mondiaux offrent une voie potentielle à travers ces limitations. En entraînant un seul modèle sur des quantités massives de données vidéo réelles, le système résultant développe une compréhension générale de la dynamique physique qui peut être appliquée à de nombreuses tâches et environnements différents. Cosmos Policy est la tentative de NVIDIA de transformer cette compréhension générale en contrôle robotique pratique.

Intégration avec l'écosystème de robotique de NVIDIA

Cosmos Policy n'existe pas isolément. Il est conçu pour s'intégrer à la pile logicielle de robotique plus large de NVIDIA, y compris Isaac Sim pour la simulation, Isaac ROS pour l'intégration du système d'exploitation des robots, et la plateforme matérielle Jetson pour l'informatique de bordure. Cette approche basée sur l'écosystème est une partie clé de la stratégie de NVIDIA, car une politique de contrôle n'est utile que si elle peut s'exécuter efficacement sur le matériel que les robots portent réellement et communiquer avec les systèmes logiciels qui gèrent les flottes de robots.

NVIDIA dit que Cosmos Policy a été validé dans les tâches de manipulation simulées et du monde réel, y compris les opérations de prise et de placement, le passage d'objets entre les bras des robots et les tâches d'assemblage qui nécessitent un alignement précis des composants. L'entreprise rend le modèle disponible aux développeurs par le biais de sa plateforme NVIDIA AI, dans le but de permettre une expérimentation et un déploiement rapides sur un large éventail d'applications robotiques.

Implications concurrentielles

L'introduction de Cosmos Policy positionne NVIDIA plus agressivement sur le marché des logiciels de contrôle robotique, qui a traditionnellement été dominé par des entreprises de robotique spécialisées et des institutions de recherche. En offrant un modèle fondamental pré-entraîné avec des capacités de contrôle intégrées, NVIDIA abaisse les barrières à l'entrée pour les entreprises qui souhaitent déployer des robots de manipulation sophistiqués mais qui manquent d'expertise en AI interne pour construire ces capacités à partir de zéro.

Les concurrents dans ce domaine incluent Google DeepMind, qui a sa propre gamme de modèles fondamentaux de robotique, et plusieurs startups travaillant sur l'apprentissage robotique généralisable. L'avantage de NVIDIA réside dans son écosystème matériel-logiciel intégré et sa base installée massive d'infrastructure informatique GPU, qui fournit la base de calcul nécessaire pour entraîner et exécuter des modèles de cette complexité.

Pour l'industrie de la robotique dans son ensemble, l'arrivée de Cosmos Policy suggère que l'ère de la manipulation robotique à usage général, où un seul robot peut gérer une large gamme de tâches physiques sans programmation spécifique à la tâche, passe de l'aspiration de la recherche à la réalité commerciale. La vitesse de cette transition dépendra de la fiabilité et des performances de systèmes comme Cosmos Policy dans les déploiements du monde réel, une question que l'industrie répondra au cours des mois et des années à venir.

Cet article est basé sur les reportages de The Robot Report. Lisez l'article original.