De Modelos Mundiales al Control de Robots
NVIDIA ha anunciado Cosmos Policy, una nueva adición a su creciente familia de modelos de fundación mundial que cierra la brecha entre la comprensión ambiental y el control físico de robots. El modelo se construye sobre Cosmos Predict-2, el modelo de fundación mundial existente de NVIDIA que genera predicciones sobre cómo cambiarán los entornos físicos con el tiempo. Cosmos Policy toma esas predicciones y las traduce en señales de control accionables que los robots pueden usar para realizar tareas de manipulación complejas.
El anuncio representa una evolución significativa en el enfoque de NVIDIA hacia la robótica de IA. En lugar de entrenar robots para realizar tareas específicas a través de demostraciones extensas o ingeniería de recompensas, Cosmos Policy aprovecha una comprensión generalizada de la dinámica física para permitir un comportamiento de robot más flexible y adaptativo. En principio, un robot equipado con Cosmos Policy debería poder abordar nuevas tareas de manipulación con una comprensión fundamental de cómo los objetos interactúan entre sí y con el cuerpo del propio robot.
Cómo Funciona Cosmos Policy
En esencia, Cosmos Policy es una capa de post-entrenamiento aplicada al modelo de fundación mundial Cosmos Predict-2. Cosmos Predict-2 se entrena en grandes cantidades de datos de video que muestran interacciones físicas del mundo real, y aprende a predecir qué sucederá a continuación en una escena determinada. Dada una imagen de una mesa con objetos sobre ella, por ejemplo, el modelo puede predecir cómo se moverán esos objetos si se empujan, se levantan o se dejan caer.
Cosmos Policy se construye sobre esta capacidad de predicción agregando una política de control que determina qué acciones debe tomar el robot para lograr el resultado deseado. El sistema funciona a través del siguiente proceso:
- Comprensión de la escena: El robot utiliza sus cámaras y sensores para capturar el estado actual de su entorno, y Cosmos Predict-2 construye una representación interna de la dinámica física de la escena.
- Especificación de objetivos: El operador o un sistema de planificación de nivel superior especifica lo que el robot debe lograr, como recoger un objeto, colocarlo en una ubicación específica o ensamblar componentes.
- Generación de acciones: Cosmos Policy utiliza la comprensión del modelo mundial sobre física para generar una secuencia de comandos de motor que moverán los brazos y pinzas del robot para lograr el objetivo.
- Adaptación en tiempo real: A medida que el robot ejecuta la tarea, el sistema actualiza continuamente sus predicciones basadas en nuevos datos de sensores, permitiendo que ajuste sus acciones si el entorno cambia inesperadamente.
Este enfoque es fundamentalmente diferente de la programación tradicional de robots, donde los ingenieros especifican manualmente cada movimiento, o del aprendizaje de refuerzo puro, donde el robot debe aprender completamente a través de ensayo y error. Al comenzar con una comprensión pre-entrenada de la dinámica física, Cosmos Policy da a los robots un comienzo significativo en nuevas tareas.
Por Qué los Modelos de Fundación Mundial Importan para la Robótica
El concepto de modelos de fundación mundial ha ganado tracción en las comunidades de investigación de robótica e IA durante varios años, pero la familia Cosmos de NVIDIA representa una de las implementaciones comerciales más ambiciosas de la idea. La idea central es que los robots que operan en el mundo físico necesitan más que reconocimiento de patrones o comprensión del lenguaje. Necesitan una comprensión intuitiva de la física, el tipo de comprensión que permite a un humano predecir que un vaso colocado en el borde de una mesa caerá, o que un objeto pesado requiere más fuerza para levantarlo que uno ligero.
Los enfoques tradicionales para el aprendizaje de robots han tenido dificultades con esto. El aprendizaje de refuerzo puede producir resultados impresionantes para tareas específicas, pero el conocimiento a menudo no se transfiere bien a nuevas situaciones. El aprendizaje por imitación requiere datos de demostración extensa para cada nueva tarea. Y la programación manual es demasiado inflexible para entornos que cambian frecuentemente.
Los modelos de fundación mundial ofrecen un camino potencial a través de estas limitaciones. Al entrenar un único modelo en grandes cantidades de datos de video del mundo real, el sistema resultante desarrolla una comprensión general de la dinámica física que se puede aplicar en muchas tareas y entornos diferentes. Cosmos Policy es el intento de NVIDIA de convertir esa comprensión general en control de robot práctico.
Integración con el Ecosistema de Robótica de NVIDIA
Cosmos Policy no existe en aislamiento. Está diseñado para integrarse con la pila de software de robótica más amplia de NVIDIA, incluyendo Isaac Sim para simulación, Isaac ROS para integración del sistema operativo de robot, y la plataforma Jetson para computación perimetral. Este enfoque de ecosistema es una parte clave de la estrategia de NVIDIA, porque una política de control solo es útil si puede ejecutarse de manera eficiente en el hardware que realmente portan los robots y comunicarse con los sistemas de software que administran flotas de robots.
NVIDIA dice que Cosmos Policy ha sido validado en tareas de manipulación tanto simuladas como del mundo real, incluyendo operaciones de recogida y colocación, transferencia de objetos entre brazos de robot y tareas de ensamblaje que requieren alineación precisa de componentes. La empresa está poniendo el modelo a disposición de los desarrolladores a través de su plataforma NVIDIA AI, con el objetivo de habilitar la experimentación rápida y la implementación en una amplia gama de aplicaciones robóticas.
Implicaciones Competitivas
La introducción de Cosmos Policy posiciona a NVIDIA de manera más agresiva en el mercado de software de control de robots, que tradicionalmente ha sido dominado por empresas de robótica especializadas e instituciones de investigación. Al ofrecer un modelo de fundación pre-entrenado con capacidades de control integradas, NVIDIA está reduciendo la barrera de entrada para empresas que desean desplegar robots de manipulación sofisticados pero carecen de experiencia en IA interna para construir estas capacidades desde cero.
Los competidores en este espacio incluyen Google DeepMind, que tiene su propia línea de modelos de fundación de robótica, y varias startups que trabajan en aprendizaje de robots generalizable. La ventaja de NVIDIA radica en su ecosistema hardware-software integrado y su masiva base instalada de infraestructura de computación GPU, que proporciona la base computacional necesaria para entrenar y ejecutar modelos de esta complejidad.
Para la industria de robótica en general, la llegada de Cosmos Policy sugiere que la era de la manipulación de robots de propósito general, donde un único robot puede manejar una amplia variedad de tareas físicas sin programación específica de tareas, se está moviendo de la aspiración de investigación hacia la realidad comercial. La rapidez con que ocurra esa transición dependerá de la confiabilidad y el rendimiento de sistemas como Cosmos Policy en implementaciones del mundo real, una pregunta que la industria estará respondiendo en los próximos meses y años.
Este artículo se basa en reportajes de The Robot Report. Lee el artículo original.


