De l'Ombre aux Projecteurs
Une nouvelle entreprise de AI pour la robotique a émergé de l'ombre avec l'une des plus grandes rondes de financement de départ de l'histoire de l'industrie de la robotique. Rhoda AI a levé 450 millions de dollars pour commercialiser un système qui entraîne les robots à exécuter des tâches complexes en regardant des démonstrations vidéo plutôt que par la programmation traditionnelle ou la teleoperation manuelle.
L'entreprise affirme que son approche réduit dramatiquement le temps et l'expertise requise pour enseigner aux robots de nouvelles compétences, résolvant potentiellement l'un des plus grands goulots d'étranglement du déploiement de robots : le problème de programmation. Aujourd'hui, faire exécuter une nouvelle tâche à un robot demande généralement des semaines ou des mois de travail d'ingénierie spécialisée. Rhoda AI prétend que son système peut accomplir la même chose en quelques heures.
Apprentissage par Observation
La technologie centrale derrière Rhoda AI est un foundation model entraîné sur de vastes quantités de données vidéo montrant des humains effectuant des tâches physiques. Le modèle apprend non seulement à quoi ressemblent les actions, mais aussi la physique sous-jacente, les relations spatiales et les chaînes causales qui relient une intention à une tâche complétée.
Quand un utilisateur veut enseigner à un robot équipé de Rhoda une nouvelle compétence, il peut simplement montrer au robot une vidéo de la tâche en cours d'exécution, qu'elle provienne d'un enregistrement de smartphone, d'une vidéo instructive ou de vidéos de surveillance existantes. Le système AI analyse la vidéo, extrait les actions pertinentes et leur séquence, les mappe sur les capacités physiques du robot, et génère une control policy qui permet au robot de répliquer la tâche dans son propre environnement.
Cela représente un changement fondamental par rapport aux approches actuelles. La plupart de l'entraînement des robots aujourd'hui dépend de la programmation explicite, où les ingénieurs codent manuellement chaque mouvement et point de décision, ou du reinforcement learning, où les robots apprennent par des millions de tentatives essais-erreurs en simulation avant de transférer les compétences au monde physique. Les deux approches sont longues, coûteuses et exigent une expertise spécialisée.
Combler l'Écart de Réalité
L'une des affirmations les plus significatives que fait Rhoda AI est que son système est conçu pour fonctionner au-delà des démonstrations de laboratoire contrôlées et dans des environnements du monde réel. Cela aborde ce que les roboticiens appellent le sim-to-real gap ou, dans ce cas, le video-to-real gap, le défi de transférer des compétences apprises d'un contexte vers les conditions chaotiques et imprévisibles du déploiement réel.
Les environnements du monde réel diffèrent des scénarios d'entraînement de manière innombrable. L'éclairage change, les objets sont positionnés différemment, les surfaces ont des propriétés de friction différentes et des obstacles inattendus apparaissent. Les systèmes qui fonctionnent parfaitement dans des configurations contrôlées échouent souvent de manière catastrophique quand ces conditions varient ne serait-ce que légèrement.
Rhoda AI affirme qu'elle aborde cela par une combinaison de compréhension visuelle robuste et de adaptive control. Le foundation model a été entraîné sur des données vidéo suffisamment diverses qu'il développe une compréhension généralisée de la physique et des interactions entre objets plutôt que de mémoriser des scénarios spécifiques. Lors du déploiement dans un nouvel environnement, le système adapte continuellement ses control policies en fonction des retours sensoriels en temps réel.
Le Financement et les Bailleurs de Fonds
La ronde de financement de 450 millions de dollars est remarquable pour une entreprise émergeant de l'ombre, reflétant l'appétit intense des investisseurs pour les entreprises de AI en robotique. La ronde place Rhoda AI parmi les startups de robotique les mieux financées de l'histoire, aux côtés d'entreprises comme Figure AI et 1X Technologies qui ont également attiré des centaines de millions récemment.
L'importance de la ronde suggère que les investisseurs voient l'approche de Rhoda AI comme potentiellement transformatrice pour l'industrie de la robotique, qui a longtemps lutté avec le problème de l'évolutivité. La base installée mondiale de robots industriels n'est que d'environ quatre millions d'unités, une fraction de ce que de nombreux analystes pensent que le marché pourrait soutenir si les robots étaient plus faciles à programmer et déployer.
Applications et Marchés Cibles
Rhoda AI cible initialement la fabrication, la logistique et l'entreposage, les secteurs où les tâches physiques répétitives sont bien adaptées à l'automatisation robotique mais où la diversité des tâches et des environnements a limité l'adoption. Un entrepôt qui traite des milliers de produits différents, par exemple, demanderait traditionnellement une programmation séparée pour chaque exigence de prélèvement et placement de l'article. L'apprentissage basé sur les vidéos pourrait potentiellement gérer cette diversité avec une fraction de l'effort d'ingénierie.
L'entreprise explore également des applications dans la restauration, l'agriculture et les soins de santé, des domaines où la pénurie de main-d'œuvre est aiguë et où la capacité à enseigner rapidement aux robots de nouvelles tâches pourrait être particulièrement précieuse. En agriculture, par exemple, différentes cultures nécessitent différentes techniques de récolte, et la capacité à entraîner un robot en lui montrant une vidéo d'une récolte appropriée pourrait rendre la robotique agricole beaucoup plus pratique.
Défis et Scepticisme
Malgré le financement impressionnant et les affirmations ambitieuses, des défis importants restent. L'industrie de la robotique a un long historique de startups qui ont démontré des capacités impressionnantes dans des cadres contrôlés mais ont eu du mal à livrer des performances fiables à l'échelle commerciale.
L'apprentissage basé sur la vidéo fait face à des limitations inhérentes. Les vidéos capturent des informations visuelles mais perdent de nombreux aspects des tâches physiques qui sont critiques pour l'exécution robotique : la force précise requise pour saisir un objet, le retour tactile qui guide les manipulations délicates et la compliance nécessaire pour manipuler des articles fragiles. Comment le système de Rhoda AI gère ces aspects non visuels déterminera probablement sa viabilité dans le monde réel.
L'entreprise devra également démontrer que son approche fonctionne sur une large gamme de matériel robotique, pas seulement des plates-formes spécifiques optimisées pour son logiciel. La plupart des applications commerciales de robotique nécessitent une intégration avec les équipements et l'infrastructure existants, et la capacité à déployer sur diverses configurations matérielles est essentielle pour une adoption généralisée.
Un Nouveau Paradigme pour la Robotique
Indépendamment de la façon dont la technologie spécifique de Rhoda AI se comporte à l'échelle, l'émergence de l'entreprise signale un changement plus large dans la façon dont l'industrie de la robotique pense au problème de programmation. La combinaison de foundation models, de compréhension vidéo et de adaptive control représente une approche fondamentalement différente du pipeline robotique traditionnel, et le financement massif qu'elle a attiré suggère que l'industrie croit qu'une percée dans l'enseignabilité des robots pourrait être imminente.
Cet article est basé sur le reportage de The Robot Report. Lire l'article original.

