Le problème des données en robotique
Enseigner à un robot à manipuler des objets dans le monde physique a historiquement nécessité des quantités énormes de données de démonstration collectées par l'homme. Le système RT-1 de Google DeepMind a nécessité 130.000 épisodes de données collectées sur 17 mois par des opérateurs humains. L'ensemble de données DROID comprend 76.000 trajectoires téléopérées collectées dans 13 institutions de recherche — représentant environ 350 heures d'effort humain. Ces chiffres reflètent non seulement l'ampleur du défi, mais aussi la concentration économique qu'il produit : seul un petit nombre de laboratoires bien financés peut se permettre de collecter les données nécessaires pour entraîner des systèmes de manipulation compétitifs.
L'Allen Institute for AI — Ai2 — propose un modèle différent avec MolmoBot, un système de manipulation robotique entraîné principalement sur des données de simulation virtuelle plutôt que sur des démonstrations physiques. La recherche démontre que ce modèle entraîné en simulation peut transférer ses capacités à des systèmes de robots physiques réels, un résultat qui pourrait considérablement démocratiser l'accès à l'IA de manipulation robotique capable.
Pourquoi la simulation n'a historiquement pas été transférable
L'écart entre les performances de simulation et du monde réel — l'« écart de simulation à réalité » — a été un obstacle persistant. Les robots physiques rencontrent une richesse d'entrées sensorielles, de variabilité environnementale et de dynamiques de contact que les environnements de simulation ont du mal à répliquer fidèlement. Un robot entraîné entièrement en simulation échoue souvent à gérer les impuretés du monde réel que son environnement d'entraînement avait abstraites.
Les tentatives précédentes pour combler cet écart se sont appuyées sur la randomisation de domaine — variation délibérée des paramètres de simulation tels que l'éclairage, les textures d'objets et les propriétés physiques pour forcer les robots à développer des représentations qui se généralisent selon les conditions. Cette approche a obtenu un succès partiel en locomotion mais a été moins efficace pour les tâches de manipulation dextère nécessitant un contrôle moteur fin et une gestion précise de la force de contact.
Approche de MolmoBot
MolmoBot s'appuie sur le modèle vision-langage Molmo d'Ai2, qui fournit au système une compréhension riche des scènes visuelles et des instructions en langage naturel. L'innovation clé est la manière dont les données de simulation sont générées et curées pour l'entraînement à la manipulation. Plutôt que d'utiliser un seul environnement de simulation, l'équipe a développé un pipeline pour générer divers scénarios de manipulation avec une fidélité physique suffisante pour entraîner des compétences généralisables.
Le système combine une fidélité de simulation améliorée dans les dynamiques de contact avec une approche d'apprentissage de représentation qui construit explicitement des invariances aux différences visuelles entre les environnements simulés et réels. Le robot apprend à identifier les caractéristiques visuelles pertinentes pour la tâche — la position de la pince, l'objet manipulé, la localisation cible — qui se ressemblent sur simulation et réalité, plutôt que d'apprendre des représentations codant des artefacts visuels spécifiques à la simulation.
L'argument de la démocratisation
L'argument économique en faveur de l'entraînement basé sur la simulation est simple. La génération de données de simulation nécessite une infrastructure informatique mais pas de robots physiques, pas d'opérateurs humains formés, et pas la coordination institutionnelle nécessaire pour agréger de grands ensembles de données de démonstration. Une équipe de recherche dans une petite université ayant accès à un cluster informatique peut générer des millions d'épisodes de manipulation simulée dans le temps qu'il faudrait à un laboratoire bien financé pour collecter des dizaines de milliers de démonstrations physiques.
Si les modèles entraînés en simulation peuvent égaler ou s'approcher des performances des systèmes entraînés physiquement — ce que les résultats de MolmoBot suggèrent être réalisable pour une catégorie significative de tâches de manipulation — les capacités de l'IA de manipulation robotique deviennent accessibles à une communauté de recherche beaucoup plus large.
Lancement ouvert
Conformément à la philosophie de recherche d'Ai2, le système MolmoBot et son pipeline d'entraînement par simulation sont lancés en open source. L'ensemble de données des trajectoires de manipulation simulée, les poids du modèle entraîné et les outils d'environnement de simulation sont tous mis à la disposition de la communauté de recherche — une approche qui contraste directement avec les stratégies de données et de modèles propriétaires des programmes commerciaux d'IA en robotique qui ont mené le domaine. Le PDG Ali Farhadi a énoncé l'objectif explicitement : construire une IA qui fait progresser la science grâce à des outils sur lesquels la communauté de recherche mondiale peut construire ensemble.
Cet article s'appuie sur un reportage d'AI News. Lire l'article original.
Originally published on artificialintelligence-news.com

