El problema de los datos en robótica

Enseñar a un robot a manipular objetos en el mundo físico históricamente ha requerido enormes cantidades de datos de demostración recopilados por humanos. El sistema RT-1 de Google DeepMind requirió 130.000 episodios de datos recopilados durante 17 meses por operadores humanos. El conjunto de datos DROID incluye 76.000 trayectorias teleoperadas recopiladas en 13 instituciones de investigación, representando aproximadamente 350 horas de esfuerzo humano. Estos números reflejan no solo la escala del desafío, sino la concentración económica que produce: solo un pequeño número de laboratorios bien financiados puede permitirse recopilar los datos necesarios para entrenar sistemas de manipulación competitivos.

El Allen Institute for AI — Ai2 — propone un modelo diferente con MolmoBot, un sistema de manipulación robótica entrenado principalmente con datos de simulación virtual en lugar de demostraciones físicas. La investigación demuestra que este modelo entrenado en simulación puede transferir sus capacidades a sistemas de robots físicos reales, un resultado que podría democratizar sustancialmente el acceso a la IA de manipulación robótica capaz.

Por qué la simulación históricamente ha fallado en transferirse

La brecha entre el rendimiento de la simulación y el del mundo real — la 'brecha de simulación a lo real' — ha sido un obstáculo persistente. Los robots físicos encuentran una riqueza de entrada sensorial, variabilidad ambiental y dinámicas de contacto que los entornos de simulación luchan por replicar fielmente. Un robot entrenado completamente en simulación a menudo falla en manejar el desorden del mundo real que su entorno de entrenamiento abstrayó.

Los intentos anteriores de cerrar esta brecha se han basado en la aleatorización de dominio — variación deliberada de parámetros de simulación como iluminación, texturas de objetos y propiedades de física para obligar a los robots a desarrollar representaciones que se generalicen entre condiciones. Este enfoque ha logrado éxito parcial en la locomoción pero ha sido menos efectivo para tareas de manipulación diestra que requieren control motor fino y gestión precisa de la fuerza de contacto.

Enfoque de MolmoBot

MolmoBot se basa en el modelo visión-lenguaje Molmo de Ai2, que proporciona al sistema una comprensión enriquecida de escenas visuales e instrucciones de lenguaje. La innovación clave es cómo se generan y se curan datos de simulación para el entrenamiento de manipulación. En lugar de usar un único entorno de simulación, el equipo desarrolló una tubería para generar escenarios de manipulación diversos con fidelidad física suficiente para entrenar habilidades generalizables.

El sistema combina una fidelidad de simulación mejorada en dinámicas de contacto con un enfoque de aprendizaje de representación que construye explícitamente invariancias a las diferencias visuales entre entornos simulados y reales. El robot aprende a identificar características visuales relevantes para la tarea — la posición del gripper, el objeto manipulado, la ubicación del objetivo — que se ven similares en simulación y realidad, en lugar de aprender representaciones que codifiquen artefactos visuales específicos de la simulación.

El argumento de la democratización

El argumento económico para el entrenamiento basado en simulación es sencillo. La generación de datos de simulación requiere infraestructura de cómputo pero no robots físicos, no operadores humanos capacitados, y no la coordinación institucional necesaria para agregar grandes conjuntos de datos de demostración. Un equipo de investigación en una pequeña universidad con acceso a un clúster de cómputo puede generar millones de episodios de manipulación simulada en el tiempo que tomaría a un laboratorio bien financiado recopilar decenas de miles de demostraciones físicas.

Si los modelos entrenados en simulación pueden igualar o acercarse al rendimiento de sistemas entrenados físicamente — lo que los resultados de MolmoBot sugieren que es alcanzable para una clase significativa de tareas de manipulación — las capacidades de la IA de manipulación robótica se vuelven accesibles para una comunidad de investigación mucho más amplia.

Lanzamiento abierto

Consistente con la filosofía de investigación de Ai2, el sistema MolmoBot y su tubería de entrenamiento de simulación se están lanzando abiertamente. El conjunto de datos de trayectorias de manipulación simuladas, los pesos del modelo entrenado y las herramientas de entorno de simulación se ponen a disposición de la comunidad investigadora — un enfoque que contrasta directamente con las estrategias de datos y modelos propietarios de los programas de IA de robótica comercial que han liderado el campo. El CEO Ali Farhadi declaró el objetivo explícitamente: construir IA que avance la ciencia a través de herramientas sobre las que la comunidad investigadora global pueda construir juntos.

Este artículo se basa en reportes de AI News. Lea el artículo original.

Originally published on artificialintelligence-news.com