De modelos mundiais ao controle de robôs

NVIDIA anunciou Cosmos Policy, uma nova adição à sua família crescente de modelos de fundação mundial que preenche a lacuna entre a compreensão ambiental e o controle físico de robôs. O modelo é construído sobre Cosmos Predict-2, modelo de fundação mundial existente da NVIDIA que gera previsões sobre como ambientes físicos mudarão ao longo do tempo. Cosmos Policy toma essas previsões e as traduz em sinais de controle acionáveis que robôs podem usar para realizar tarefas de manipulação complexas.

O anúncio representa uma evolução significativa na abordagem da NVIDIA para AI de robótica. Em vez de treinar robôs para realizar tarefas específicas através de demonstrações extensas ou engenharia de recompensas, Cosmos Policy aproveita uma compreensão generalizada de dinâmica física para permitir comportamento de robô mais flexível e adaptável. Em princípio, um robô equipado com Cosmos Policy deveria ser capaz de abordar tarefas de manipulação novas com uma compreensão fundamental de como objetos interagem uns com os outros e com o próprio corpo do robô.

Como Cosmos Policy funciona

Em sua essência, Cosmos Policy é uma camada de pós-treinamento aplicada ao modelo de fundação mundial Cosmos Predict-2. Cosmos Predict-2 é treinado em grandes quantidades de dados de vídeo mostrando interações físicas reais, e aprende a prever o que acontecerá a seguir em uma cena dada. Dado uma imagem de uma mesa com objetos nela, por exemplo, o modelo pode prever como esses objetos se moverão se empurrados, levantados ou caírem.

Cosmos Policy se baseia nessa capacidade de previsão adicionando uma política de controle que determina quais ações o robô deve tomar para alcançar um resultado desejado. O sistema funciona através do seguinte processo:

  • Compreensão de cena: O robô usa suas câmeras e sensores para capturar o estado atual de seu ambiente, e Cosmos Predict-2 constrói uma representação interna da dinâmica física da cena.
  • Especificação de objetivo: O operador ou um sistema de planejamento de nível superior especifica o que o robô deve realizar, como pegar um objeto, colocá-lo em um local específico ou montar componentes.
  • Geração de ação: Cosmos Policy usa a compreensão do modelo mundial de física para gerar uma sequência de comandos motores que moverão os braços e garras do robô para realizar o objetivo.
  • Adaptação em tempo real: Conforme o robô executa a tarefa, o sistema atualiza continuamente suas previsões com base em novos dados de sensores, permitindo que ele ajuste suas ações se o ambiente mudar inesperadamente.

Esta abordagem é fundamentalmente diferente de programação robótica tradicional, onde os engenheiros especificam manualmente cada movimento, ou de puro aprendizado por reforço, onde o robô deve aprender inteiramente através de tentativa e erro. Começando com uma compreensão pré-treinada de dinâmica física, Cosmos Policy dá aos robôs um avanço significativo em novas tarefas.

Por que modelos de fundação mundial importam para robótica

O conceito de modelos de fundação mundial tem ganhado tração nas comunidades de pesquisa de robótica e AI há vários anos, mas a família Cosmos da NVIDIA representa uma das implementações comerciais mais ambiciosas da ideia. O insight central é que robôs operando no mundo físico precisam de mais do que reconhecimento de padrões ou compreensão de linguagem. Eles precisam de uma compreensão intuitiva de física, o tipo de compreensão que permite a um humano prever que um copo colocado na borda de uma mesa cairá, ou que um objeto pesado requer mais força para levantar do que um leve.

Abordagens tradicionais para aprendizado de robôs têm dificuldades com isso. O aprendizado por reforço pode produzir resultados impressionantes para tarefas específicas, mas o conhecimento geralmente não se transfere bem para novas situações. O aprendizado por imitação requer dados de demonstração extensos para cada nova tarefa. E a programação manual é muito inflexível para ambientes que mudam com frequência.

Modelos de fundação mundial oferecem um caminho potencial através dessas limitações. Ao treinar um único modelo em quantidades massivas de dados de vídeo do mundo real, o sistema resultante desenvolve uma compreensão geral de dinâmica física que pode ser aplicada em muitas tarefas e ambientes diferentes. Cosmos Policy é a tentativa da NVIDIA de transformar essa compreensão geral em controle prático de robôs.

Integração com ecossistema de robótica da NVIDIA

Cosmos Policy não existe isoladamente. Ele foi projetado para se integrar com o stack de software de robótica mais amplo da NVIDIA, incluindo Isaac Sim para simulação, Isaac ROS para integração de sistema operacional de robô, e plataforma de hardware Jetson para computação de borda. Esta abordagem baseada em ecossistema é uma parte chave da estratégia da NVIDIA, porque uma política de controle é apenas útil se pode ser executada eficientemente no hardware que os robôs realmente carregam e comunicar com os sistemas de software que gerenciam frotas de robôs.

NVIDIA diz que Cosmos Policy foi validado em tarefas de manipulação simuladas e do mundo real, incluindo operações de pega e colocação, transferência de objetos entre braços de robô, e tarefas de montagem que requerem alinhamento preciso de componentes. A empresa está disponibilizando o modelo para desenvolvedores através de sua plataforma NVIDIA AI, com o objetivo de permitir experimentação rápida e implantação em uma ampla gama de aplicações robóticas.

Implicações competitivas

A introdução de Cosmos Policy posiciona NVIDIA mais agressivamente no mercado de software de controle de robôs, que tradicionalmente tem sido dominado por empresas especializadas em robótica e instituições de pesquisa. Ao oferecer um modelo de fundação pré-treinado com capacidades de controle integradas, NVIDIA está reduzindo as barreiras de entrada para empresas que desejam implantar robôs de manipulação sofisticados, mas carecem de expertise interna em AI para construir essas capacidades do zero.

Concorrentes neste espaço incluem Google DeepMind, que tem sua própria linha de modelos de fundação de robótica, e vários startups trabalhando em aprendizado de robô generalizável. A vantagem da NVIDIA reside em seu ecossistema integrado de hardware-software e sua enorme base instalada de infraestrutura de computação GPU, que fornece a fundação computacional necessária para treinar e executar modelos dessa complexidade.

Para a indústria de robótica como um todo, a chegada de Cosmos Policy sugere que a era de manipulação robótica de propósito geral, onde um único robô pode lidar com uma ampla gama de tarefas físicas sem programação específica à tarefa, está passando de aspiração de pesquisa para realidade comercial. A rapidez com que essa transição ocorre dependerá da confiabilidade e desempenho de sistemas como Cosmos Policy em implantações do mundo real, uma pergunta que a indústria estará respondendo nos próximos meses e anos.

Este artigo é baseado em relatos do The Robot Report. Leia o artigo original.