Del Sigilo al Foco de Atención
Una nueva empresa de AI para robótica ha salido del sigilo con una de las rondas de financiación debut más grandes en la historia de la industria de la robótica. Rhoda AI ha recaudado $450 millones para comercializar un sistema que entrena robots para realizar tareas complejas viendo demostraciones en video en lugar de a través de programación tradicional u operación manual remota.
La empresa dice que su enfoque reduce dramáticamente el tiempo y la experiencia requerida para enseñar a los robots nuevas habilidades, potencialmente resolviendo uno de los mayores cuellos de botella en el despliegue de robots: el problema de programación. Hoy en día, conseguir que un robot realice una nueva tarea típicamente requiere semanas o meses de trabajo de ingeniería especializada. Rhoda AI afirma que su sistema puede lograr lo mismo en horas.
Aprender Observando
La tecnología central detrás de Rhoda AI es un foundation model entrenado en grandes cantidades de datos de video mostrando humanos realizando tareas físicas. El modelo aprende no solo cómo se ven las acciones, sino la física subyacente, las relaciones espaciales y las cadenas causales que conectan una intención con una tarea completada.
Cuando un usuario quiere enseñar a un robot equipado con Rhoda una nueva habilidad, puede simplemente mostrarle al robot un video de la tarea siendo realizada, ya sea desde una grabación de smartphone, un video instructivo o video de vigilancia existente. El sistema AI analiza el video, extrae las acciones relevantes y su secuencia, las mapea en las capacidades físicas del robot, y genera una control policy que permite al robot replicar la tarea en su propio ambiente.
Esto representa un cambio fundamental de los enfoques actuales. La mayoría del entrenamiento de robots hoy depende de programación explícita, donde los ingenieros codifican manualmente cada movimiento y punto de decisión, o reinforcement learning, donde los robots aprenden a través de millones de intentos de prueba y error en simulación antes de transferir habilidades al mundo físico. Ambos enfoques son consumen tiempo, son costosos y requieren experiencia especializada.
Cerrando la Brecha de Realidad
Una de las afirmaciones más significativas que Rhoda AI hace es que su sistema está diseñado para operar más allá de demostraciones de laboratorio controladas y en ambientes del mundo real. Esto aborda lo que los robóticos llaman el sim-to-real gap o, en este caso, el video-to-real gap, el desafío de transferir habilidades aprendidas de un contexto a las condiciones desordenadas e impredecibles del despliegue real.
Los ambientes del mundo real difieren de escenarios de entrenamiento de innumerables maneras. La iluminación cambia, los objetos se colocan diferente, las superficies tienen diferentes propiedades de fricción y aparecen obstáculos inesperados. Los sistemas que funcionan perfectamente en configuraciones controladas a menudo fallan catastróficamente cuando estas condiciones varían incluso ligeramente.
Rhoda AI dice que aborda esto a través de una combinación de comprensión visual robusta y adaptive control. El foundation model ha sido entrenado en datos de video suficientemente diversos que desarrolla comprensión generalizada de la física e interacciones de objetos en lugar de memorizar escenarios específicos. Cuando se despliega en un nuevo ambiente, el sistema adapta continuamente sus control policies basado en retroalimentación sensorial en tiempo real.
La Financiación y los Respaldadores
La ronda de financiación de $450 millones es notable para una empresa que sale del sigilo, reflejando el intenso apetito de inversores por empresas de AI en robótica. La ronda coloca a Rhoda AI entre los startups de robótica mejor financiados en la historia, junto a empresas como Figure AI y 1X Technologies que también han atraído cientos de millones recientemente.
El tamaño de la ronda sugiere que los inversores ven el enfoque de Rhoda AI como potencialmente transformador para la industria de la robótica, que ha luchado durante mucho tiempo con el problema de escalabilidad. La base instalada global de robots industriales es de solo alrededor de cuatro millones de unidades, una fracción de lo que muchos analistas creen que el mercado podría soportar si los robots fueran más fáciles de programar e implementar.
Aplicaciones y Mercados Objetivo
Rhoda AI apunta inicialmente a manufactura, logística y almacenamiento, sectores donde las tareas físicas repetitivas son bien adaptadas a la automatización robótica pero donde la diversidad de tareas y ambientes ha limitado la adopción. Un almacén que maneja miles de productos diferentes, por ejemplo, tradicionalmente requeriría programación separada para cada requisito de recogida y colocación de artículo. El aprendizaje basado en video podría potencialmente manejar esta diversidad con una fracción del esfuerzo de ingeniería.
La empresa también está explorando aplicaciones en servicio de alimentos, agricultura y cuidado de la salud, dominios donde las escaseces laborales son agudas y la capacidad de enseñar rápidamente a los robots nuevas tareas podría ser particularmente valiosa. En agricultura, por ejemplo, diferentes cultivos requieren diferentes técnicas de cosecha, y la capacidad de entrenar un robot mostrándole un video de cosecha apropiada podría hacer la agricultura robótica mucho más práctica.
Desafíos y Escepticismo
A pesar de la impresionante financiación y reclamaciones ambiciosas, desafíos significativos permanecen. La industria de la robótica tiene un largo historial de startups que demostraron capacidades impresionantes en configuraciones controladas pero tuvieron dificultades para entregar desempeño confiable a escala comercial.
El aprendizaje basado en video enfrenta limitaciones inherentes. Los videos capturan información visual pero pierden muchos aspectos de tareas físicas que son críticos para la ejecución robótica: la fuerza precisa requerida para agarrar un objeto, la retroalimentación táctil que guía manipulaciones delicadas, y la compliance necesaria para manejar artículos frágiles. Qué tan bien el sistema de Rhoda AI maneja estos aspectos no visuales probablemente determinará su viabilidad en el mundo real.
La empresa también necesitará demostrar que su enfoque funciona en un amplio rango de hardware de robots, no solo plataformas específicas optimizadas para su software. La mayoría de aplicaciones de robótica comerciales requieren integración con equipamiento e infraestructura existente, y la capacidad de desplegar a través de configuraciones de hardware diversas es esencial para adopción amplia.
Un Nuevo Paradigma para la Robótica
Independientemente de cómo el tecnología específica de Rhoda AI se desempeña en escala, la salida de la empresa señala un cambio más amplio en cómo la industria de la robótica piensa acerca del problema de programación. La combinación de foundation models, comprensión de video, y adaptive control representa un enfoque fundamentalmente diferente de la tubería tradicional de robótica, y la masiva financiación que ha atraído sugiere que la industria cree que un avance en la enseñabilidad de robots puede estar acercándose.
Este artículo está basado en reportajes de The Robot Report. Lee el artículo original.

