세계 모델에서 로봇 제어로

NVIDIA는 세계 기초 모델의 성장하는 제품군에 새로운 추가물인 Cosmos Policy를 발표했으며, 이는 환경 이해와 물리적 로봇 제어 사이의 격차를 좁힙니다. 이 모델은 NVIDIA의 기존 세계 기초 모델인 Cosmos Predict-2 위에 구축되어 있으며, 물리적 환경이 시간에 따라 어떻게 변할지 예측을 생성합니다. Cosmos Policy는 이러한 예측을 로봇이 복잡한 조작 작업을 수행하는 데 사용할 수 있는 실행 가능한 제어 신호로 변환합니다.

이 발표는 로봇 AI에 대한 NVIDIA의 접근 방식의 중요한 진화를 나타냅니다. 광범위한 시연이나 보상 엔지니어링을 통해 로봇을 특정 작업을 수행하도록 훈련시키는 대신, Cosmos Policy는 물리 역학에 대한 일반화된 이해를 활용하여 더욱 유연하고 적응적인 로봇 동작을 가능하게 합니다. 원칙적으로 Cosmos Policy를 갖춘 로봇은 객체가 서로 상호작용하는 방식과 로봇 자신의 신체와 상호작용하는 방식에 대한 기초적인 이해를 가지고 새로운 조작 작업에 접근할 수 있어야 합니다.

Cosmos Policy 작동 원리

본질적으로 Cosmos Policy는 Cosmos Predict-2 세계 기초 모델에 적용되는 후처리 층입니다. Cosmos Predict-2는 실제 물리적 상호작용을 보여주는 대량의 영상 데이터로 훈련되며, 주어진 장면에서 다음에 무엇이 일어날지 예측하는 방법을 학습합니다. 예를 들어, 테이블 위의 물체를 보여주는 이미지가 주어지면, 이 모델은 그 물체들이 밀려나고, 들어올려지고, 떨어질 때 어떻게 움직일지 예측할 수 있습니다.

Cosmos Policy는 로봇이 원하는 결과를 달성하기 위해 취해야 할 조치를 결정하는 제어 정책을 추가함으로써 이 예측 기능을 기반으로 합니다. 시스템은 다음 프로세스를 통해 작동합니다:

  • 장면 이해: 로봇은 카메라와 센서를 사용하여 환경의 현재 상태를 캡처하고, Cosmos Predict-2는 장면의 물리 역학의 내부 표현을 구축합니다.
  • 목표 명시: 운영자 또는 상위 수준의 계획 시스템이 로봇이 달성해야 할 사항을 명시합니다. 예를 들어 물체를 집기, 특정 위치에 배치하거나 부품을 조립합니다.
  • 행동 생성: Cosmos Policy는 세계 모델의 물리학 이해를 사용하여 로봇의 팔과 그리퍼를 움직여 목표를 달성할 모터 명령 시퀀스를 생성합니다.
  • 실시간 적응: 로봇이 작업을 실행할 때, 시스템은 새로운 센서 데이터를 기반으로 예측을 지속적으로 업데이트하여 환경이 예상치 못하게 변할 경우 행동을 조정할 수 있도록 합니다.

이 접근 방식은 엔지니어가 모든 동작을 수동으로 지정하는 전통적인 로봇 프로그래밍이나 로봇이 완전히 시행착오를 통해 학습해야 하는 순수 강화 학습과 근본적으로 다릅니다. 사전 훈련된 물리 역학 이해를 시작으로 Cosmos Policy는 로봇에게 새로운 작업에서 상당한 이점을 제공합니다.

로봇공학을 위한 세계 기초 모델이 중요한 이유

세계 기초 모델의 개념은 로봇공학 및 AI 연구 커뮤니티에서 수년 동안 주목을 받고 있지만, NVIDIA의 Cosmos 제품군은 이 아이디어의 가장 상업적으로 야심 찬 구현 중 하나를 나타냅니다. 핵심 통찰력은 물리적 세계에서 작동하는 로봇이 패턴 인식 이상의 것이 필요하거나 언어 이해를 필요로 한다는 것입니다. 인간이 테이블 가장자리에 놓인 잔이 떨어질 것이라고 예측하거나 무거운 물체가 가벼운 물체보다 들어올리기 위해 더 많은 힘이 필요하다는 것을 이해할 수 있게 해주는 직관적인 물리 이해가 필요합니다.

로봇 학습에 대한 전통적인 접근 방식은 이것으로 어려움을 겪었습니다. 강화 학습은 특정 작업에 대해 인상적인 결과를 생성할 수 있지만, 그 지식은 새로운 상황으로 잘 전이되지 않습니다. 모방 학습은 각 새로운 작업에 대해 광범위한 시연 데이터가 필요합니다. 그리고 수동 프로그래밍은 자주 변하는 환경에서는 너무 경직되어 있습니다.

세계 기초 모델은 이러한 제한을 통과할 수 있는 잠재적 경로를 제공합니다. 엄청난 양의 실제 영상 데이터로 단일 모델을 훈련함으로써, 결과적인 시스템은 많은 다양한 작업과 환경에 적용될 수 있는 물리 역학에 대한 일반적인 이해를 개발합니다. Cosmos Policy는 NVIDIA가 그 일반적인 이해를 실용적인 로봇 제어로 전환하려는 시도입니다.

NVIDIA의 로봇공학 생태계와 통합

Cosmos Policy는 고립되어 존재하지 않습니다. 시뮬레이션을 위한 Isaac Sim, 로봇 운영 체제 통합을 위한 Isaac ROS, 엣지 컴퓨팅을 위한 Jetson 하드웨어 플랫폼을 포함하는 NVIDIA의 광범위한 로봇공학 소프트웨어 스택과 통합되도록 설계되었습니다. 이 생태계 접근 방식은 NVIDIA 전략의 핵심 부분입니다. 제어 정책은 로봇이 실제로 소유하고 있는 하드웨어에서 효율적으로 실행될 수 있고 로봇 함대를 관리하는 소프트웨어 시스템과 통신할 수 있을 때만 유용하기 때문입니다.

NVIDIA는 Cosmos Policy가 시뮬레이션된 조작 작업과 실제 조작 작업 모두에서 검증되었다고 말하며, 픽앤플레이 작업, 로봇 팔 간의 물체 인계, 부품의 정확한 정렬이 필요한 조립 작업 등이 포함됩니다. 회사는 자신의 NVIDIA AI 플랫폼을 통해 개발자가 이 모델을 사용할 수 있도록 하고 있으며, 광범위한 로봇 응용 프로그램에 걸쳐 빠른 실험과 배포를 가능하게 하는 것을 목표로 합니다.

경쟁적 영향

Cosmos Policy의 도입은 NVIDIA를 로봇 제어 소프트웨어 시장에서 더 적극적으로 배치하며, 이 시장은 전통적으로 전문 로봇공학 회사와 연구 기관이 지배해 왔습니다. 내장된 제어 기능을 가진 사전 훈련된 세계 모델을 제공함으로써, NVIDIA는 정교한 조작 로봇을 배포하고 싶지만 이러한 기능을 처음부터 구축할 사내 AI 전문 지식이 부족한 회사의 진입 장벽을 낮추고 있습니다.

이 공간의 경쟁자는 자신의 로봇공학 기초 모델 라인을 가진 Google DeepMind, 그리고 일반화 가능한 로봇 학습에서 일하는 여러 스타트업을 포함합니다. NVIDIA의 장점은 통합된 하드웨어 소프트웨어 생태계와 이러한 복잡도의 모델을 훈련하고 실행하는 데 필요한 계산 기반을 제공하는 거대한 설치된 GPU 컴퓨팅 인프라 기반입니다.

로봇공학 산업 전체에 대해, Cosmos Policy의 도입은 단일 로봇이 작업별 프로그래밍 없이 광범위한 물리적 작업을 처리할 수 있는 범용 로봇 조작 시대가 연구 열망에서 상업적 현실로 이동하고 있음을 시사합니다. 그 전환이 얼마나 빨리 일어날지는 실제 배포에서 Cosmos Policy 같은 시스템의 신뢰성과 성능에 달려 있으며, 이는 업계가 앞으로의 몇 개월과 몇 년 동안 답변할 질문입니다.

이 기사는 The Robot Report의 보도를 기반으로 합니다. 원문 기사를 읽으세요.