O problema dos dados em robótica
Ensinar a um robô manipular objetos no mundo físico historicamente exigiu enormes quantidades de dados de demonstração coletados por humanos. O sistema RT-1 do Google DeepMind exigiu 130.000 episódios de dados coletados em 17 meses por operadores humanos. O conjunto de dados DROID inclui 76.000 trajetórias teleoperadas coletadas em 13 instituições de pesquisa — representando aproximadamente 350 horas de esforço humano. Esses números refletem não apenas a escala do desafio, mas a concentração econômica que produz: apenas um pequeno número de laboratórios bem financiados pode arcar com a coleta de dados necessária para treinar sistemas de manipulação competitivos.
O Allen Institute for AI — Ai2 — está propondo um modelo diferente com o MolmoBot, um sistema de manipulação robótica treinado principalmente em dados de simulação virtual em vez de demonstrações físicas. A pesquisa demonstra que esse modelo treinado em simulação pode transferir suas capacidades para sistemas de robôs físicos reais, um resultado que poderia democratizar substancialmente o acesso à IA de manipulação robótica capaz.
Por que a simulação historicamente falhou em transferência
A lacuna entre o desempenho da simulação e o do mundo real — a 'lacuna de simulação para realidade' — tem sido um obstáculo persistente. Os robôs físicos encontram uma riqueza de entrada sensorial, variabilidade ambiental e dinâmica de contato que os ambientes de simulação lutam para replicar fielmente. Um robô treinado totalmente em simulação frequentemente falha em lidar com a complexidade do mundo real que seu ambiente de treinamento abstraiu.
As tentativas anteriores de preencher essa lacuna dependeram da randomização de domínio — variação deliberada de parâmetros de simulação como iluminação, texturas de objetos e propriedades de física para forçar os robôs a desenvolver representações que se generalizem entre condições. Essa abordagem obteve sucesso parcial em locomoção, mas foi menos eficaz para tarefas de manipulação destra que exigem controle motor fino e gerenciamento preciso de força de contato.
Abordagem do MolmoBot
O MolmoBot se baseia no modelo de visão-linguagem Molmo da Ai2, que fornece ao sistema uma compreensão rica de cenas visuais e instruções de linguagem. A inovação chave é como dados de simulação são gerados e selecionados para treinamento de manipulação. Em vez de usar um único ambiente de simulação, o time desenvolveu um pipeline para gerar cenários de manipulação diversos com fidelidade física suficiente para treinar habilidades generalizáveis.
O sistema combina fidelidade de simulação aprimorada em dinâmica de contato com uma abordagem de aprendizado de representação que construa explicitamente invariâncias para as diferenças visuais entre ambientes simulados e reais. O robô aprende a identificar características visuais relevantes para a tarefa — a posição do grampo, o objeto sendo manipulado, a localização alvo — que se parecem similares em simulação e realidade, em vez de aprender representações que codifiquem artefatos visuais específicos da simulação.
O argumento da democratização
O argumento econômico para treinamento baseado em simulação é direto. Gerar dados de simulação exige infraestrutura computacional, mas não robôs físicos, não operadores humanos treinados, e não a coordenação institucional necessária para agregar grandes conjuntos de dados de demonstração. Uma equipe de pesquisa em uma pequena universidade com acesso a um cluster de computação pode gerar milhões de episódios de manipulação simulados no tempo que levaria a um laboratório bem financiado coletar dezenas de milhares de demonstrações físicas.
Se modelos treinados em simulação puderem igualar ou se aproximar do desempenho de sistemas treinados fisicamente — o que os resultados do MolmoBot sugerem ser alcançável para uma classe significativa de tarefas de manipulação — as capacidades de IA de manipulação robótica se tornam acessíveis a uma comunidade de pesquisa muito mais ampla.
Lançamento aberto
Consistente com a filosofia de pesquisa da Ai2, o sistema MolmoBot e seu pipeline de treinamento em simulação estão sendo lançados abertamente. O conjunto de dados de trajetórias de manipulação simuladas, os pesos do modelo treinado e as ferramentas de ambiente de simulação estão todos sendo disponibilizados para a comunidade de pesquisa — uma abordagem que contrasta diretamente com as estratégias proprietárias de dados e modelos dos programas comerciais de IA em robótica que lideraram o campo. O CEO Ali Farhadi afirmou o objetivo explicitamente: construir IA que avance a ciência através de ferramentas que a comunidade global de pesquisa pode construir em conjunto.
Este artigo é baseado em relatórios da AI News. Leia o artigo original.
Originally published on artificialintelligence-news.com

