NVIDIA добавляет Cosmos Policy в модели world foundation

От мировых моделей к управлению роботами

NVIDIA объявила о Cosmos Policy, новом дополнении к своему растущему семейству моделей world foundation, которое преодолевает разрыв между пониманием окружения и физическим управлением роботом. Модель построена на основе Cosmos Predict-2, существующей world foundation модели NVIDIA, которая генерирует прогнозы о том, как физические среды будут меняться с течением времени. Cosmos Policy берет эти прогнозы и преобразует их в практические сигналы управления, которые роботы могут использовать для выполнения сложных манипуляционных задач.

Объявление представляет значительную эволюцию в подходе NVIDIA к AI робототехники. Вместо обучения роботов выполнению специфических задач через обширные демонстрации или инженерию вознаграждения, Cosmos Policy использует обобщенное понимание физической динамики для обеспечения более гибкого и адаптивного поведения робота. В принципе, робот, оснащенный Cosmos Policy, должен быть в состоянии приступить к новым манипуляционным задачам с фундаментальным пониманием того, как объекты взаимодействуют друг с другом и с собственным телом робота.

Как работает Cosmos Policy

По своей сути, Cosmos Policy является слоем постобучения, применяемым к world foundation модели Cosmos Predict-2. Cosmos Predict-2 обучается на огромном количестве видеоданных, показывающих реальные физические взаимодействия, и учится предсказывать, что будет дальше в данной сцене. Например, учитывая изображение стола с объектами на нем, модель может предсказать, как эти объекты будут двигаться, если их толкнуть, поднять или уронить.

Cosmos Policy основывается на этой способности к предсказанию, добавляя политику управления, которая определяет, какие действия должен предпринять робот для достижения желаемого результата. Система работает в следующем процессе:

Понимание сцены: Робот использует камеры и датчики для захвата текущего состояния своего окружения, и Cosmos Predict-2 создает внутреннее представление физической динамики сцены.
Определение цели: Оператор или система планирования более высокого уровня определяет, что должен достичь робот, например, поднять объект, поместить его в определенное место или собрать компоненты.
Генерация действий: Cosmos Policy использует понимание мировой модели физики для генерации последовательности команд двигателя, которые переместят руки и захватывающие механизмы робота для достижения цели.
Адаптация в реальном времени: Когда робот выполняет задачу, система постоянно обновляет свои прогнозы на основе новых данных датчиков, позволяя ему корректировать свои действия, если окружение неожиданно изменяется.

Этот подход принципиально отличается от традиционного программирования роботов, где инженеры вручную определяют каждое движение, или от чистого обучения с подкреплением, где робот должен учиться полностью путем проб и ошибок. Начиная с предварительно обученного понимания физической динамики, Cosmos Policy дает роботам значительное преимущество в новых задачах.

Почему мировые модели фундамента важны для робототехники

Концепция моделей world foundation получает признание в сообществах робототехники и AI-исследований уже несколько лет, но семейство Cosmos от NVIDIA представляет одну из наиболее амбициозных коммерческих реализаций этой идеи. Основная идея заключается в том, что роботы, работающие в физическом мире, нуждаются в большем, чем распознавание образов или понимание языка. Им требуется интуитивное понимание физики, то есть понимание, которое позволяет человеку предсказать, что стакан, поставленный на край стола, упадет, или что тяжелый объект требует больше силы для поднятия, чем легкий.

Традиционные подходы к обучению роботов с трудом справлялись с этим. Обучение с подкреплением может давать впечатляющие результаты для специфических задач, но знания часто плохо переносятся на новые ситуации. Обучение на основе подражания требует обширных данных демонстрации для каждой новой задачи. И ручное программирование слишком неточно для сред, которые часто меняются.

Модели world foundation предлагают возможный путь через эти ограничения. Обучая одну модель на массивных количествах реальных видеоданных, результирующая система развивает общее понимание физической динамики, которое может быть применено ко многим различным задачам и средам. Cosmos Policy – это попытка NVIDIA превратить это общее понимание в практическое управление роботом.

Интеграция с экосистемой робототехники NVIDIA

Cosmos Policy не существует изолированно. Он разработан для интеграции с более широким стеком программного обеспечения робототехники NVIDIA, включая Isaac Sim для моделирования, Isaac ROS для интеграции операционной системы робота и аппаратную платформу Jetson для граничных вычислений. Этот подход на основе экосистемы является ключевой частью стратегии NVIDIA, потому что политика управления полезна только если она может эффективно работать на оборудовании, которое роботы на самом деле несут, и взаимодействовать с программными системами, которые управляют флотами роботов.

NVIDIA говорит, что Cosmos Policy был проверен как в моделируемых, так и в реальных манипуляционных задачах, включая операции захвата и размещения, передачу объектов между робо-руками и сборку задач, требующих точного выравнивания компонентов. Компания делает модель доступной для разработчиков через свою платформу NVIDIA AI с целью обеспечить быстрые экспериментирование и развертывание на широком спектре робототехнических приложений.

Конкурентные последствия

Введение Cosmos Policy позиционирует NVIDIA более агрессивно на рынке программного обеспечения управления роботами, который традиционно был доминирован специализированными компаниями робототехники и исследовательскими учреждениями. Предлагая предварительно обученную world модель со встроенными функциями управления, NVIDIA снижает барьеры входа для компаний, которые хотят развернуть сложные роботы манипулирования, но не имеют внутреннего AI опыта для создания этих возможностей с нуля.

Конкуренты в этом пространстве включают Google DeepMind, который имеет свою собственную линию моделей основания робототехники, и несколько стартапов, работающих над обобщаемым обучением роботов. Преимущество NVIDIA заключается в его интегрированной аппаратно-программной экосистеме и огромной установленной базе GPU-вычислительной инфраструктуры, которая предоставляет вычислительную основу, необходимую для обучения и запуска моделей такой сложности.

Для робототехнической промышленности в целом прибытие Cosmos Policy предполагает, что эра универсальной манипуляции роботов, в которой один робот может справиться с широким спектром физических задач без программирования для конкретных задач, переходит от научного стремления к коммерческой реальности. Как быстро произойдет этот переход, будет зависеть от надежности и производительности систем, подобных Cosmos Policy, в реальных развертываниях – вопроса, на который промышленность будет отвечать в течение предстоящих месяцев и лет.

Эта статья основана на отчетах The Robot Report. Прочитайте оригинальную статью.