Von Weltmodellen zur Robotersteuerung

NVIDIA hat Cosmos Policy angekündigt, eine neue Ergänzung seiner wachsenden Familie von World Foundation Models, die die Lücke zwischen Umweltverständnis und physischer Robotersteuerung überbrückt. Das Modell basiert auf Cosmos Predict-2, NVIDIAs bestehendem World Foundation Model, das Vorhersagen darüber generiert, wie sich physikalische Umgebungen im Laufe der Zeit verändern. Cosmos Policy nimmt diese Vorhersagen und übersetzt sie in umsetzbare Steuersignale, die Roboter zur Durchführung komplexer Manipulationsaufgaben nutzen können.

Die Ankündigung stellt eine bedeutende Entwicklung in NVIDIAs Ansatz für Robotik-AI dar. Anstatt Roboter durch umfangreiche Demonstrationen oder Reward Engineering zur Durchführung spezifischer Aufgaben zu trainieren, nutzt Cosmos Policy ein verallgemeinertes Verständnis der physikalischen Dynamiken, um flexiblere und adaptivere Roboterverhalten zu ermöglichen. Im Prinzip sollte ein Roboter, der mit Cosmos Policy ausgestattet ist, sich neuen Manipulationsaufgaben nähern können, mit einem grundlegenden Verständnis dafür, wie Objekte miteinander und mit dem eigenen Körper des Roboters interagieren.

Wie Cosmos Policy funktioniert

Im Kern ist Cosmos Policy eine Nachtrainingsschicht, die auf das World Foundation Model Cosmos Predict-2 angewendet wird. Cosmos Predict-2 wird mit großen Mengen an Videodaten realer physikalischer Interaktionen trainiert und lernt, vorherzusagen, was als nächstes in einer bestimmten Szene passiert. Wenn beispielsweise ein Bild eines Tisches mit Objekten darauf gegeben wird, kann das Modell vorhersagen, wie sich diese Objekte bewegen, wenn sie geschoben, angehoben oder fallen gelassen werden.

Cosmos Policy baut auf dieser Vorhersagefähigkeit auf, indem eine Steuerpolitik hinzugefügt wird, die bestimmt, welche Maßnahmen der Roboter ergreifen sollte, um ein gewünschtes Ergebnis zu erreichen. Das System funktioniert nach dem folgenden Prozess:

  • Szenenverständnis: Der Roboter nutzt Kameras und Sensoren, um den aktuellen Zustand seiner Umgebung zu erfassen, und Cosmos Predict-2 erstellt eine interne Darstellung der physikalischen Dynamiken der Szene.
  • Zielangabe: Der Bediener oder ein Planungssystem höherer Ebene gibt an, was der Roboter erreichen soll, z. B. ein Objekt abholen, es an einer bestimmten Stelle platzieren oder Komponenten montieren.
  • Aktionsgenerierung: Cosmos Policy nutzt das Verständnis des Weltmodells für Physik, um eine Abfolge von Motorenbefehlen zu generieren, die die Arme und Greifer des Roboters bewegen, um das Ziel zu erreichen.
  • Echtzeitanpassung: Während der Roboter die Aufgabe ausführt, aktualisiert das System seine Vorhersagen kontinuierlich auf der Grundlage neuer Sensordaten und ermöglicht es, seine Aktionen anzupassen, wenn sich die Umgebung unerwartet ändert.

Dieser Ansatz unterscheidet sich grundlegend von traditioneller Roboterprogrammierung, bei der Ingenieure jede Bewegung manuell spezifizieren, oder von reinem Reinforcement Learning, bei dem der Roboter vollständig durch Versuch und Irrtum lernen muss. Durch den Ausgangspunkt eines vortrainierten Verständnisses der physikalischen Dynamiken gibt Cosmos Policy Robotern einen bedeutenden Vorsprung bei neuen Aufgaben.

Warum World Foundation Models für Robotik wichtig sind

Das Konzept der World Foundation Models hat in der Robotik- und AI-Forschungsgemeinde seit mehreren Jahren an Zugkraft gewonnen, aber NVIDIAs Cosmos-Familie stellt eine der kommerziell ehrgeizigsten Implementierungen der Idee dar. Die Kernidee ist, dass Roboter, die in der physischen Welt arbeiten, mehr benötigen als Mustererkennung oder Sprachverständnis. Sie benötigen ein intuitives Verständnis der Physik, die Art von Verständnis, das es einem Menschen ermöglicht vorherzusagen, dass ein Glas am Rand eines Tisches platziert zu Fall kommt, oder dass ein schweres Objekt mehr Kraft zum Heben benötigt als ein leichtes.

Traditionelle Ansätze zum Roboterlernen haben damit zu kämpfen gehabt. Reinforcement Learning kann beeindruckende Ergebnisse für spezifische Aufgaben erzielen, aber das Wissen lässt sich oft nicht gut auf neue Situationen übertragen. Imitation Learning erfordert umfangreiche Demonstrationsdaten für jede neue Aufgabe. Und manuelle Programmierung ist für Umgebungen, die sich häufig ändern, zu unflexibel.

World Foundation Models bieten einen möglichen Weg durch diese Einschränkungen. Durch das Training eines einzelnen Modells auf massiven Mengen von realen Videodaten entwickelt das resultierende System ein allgemeines Verständnis der physikalischen Dynamiken, das auf viele verschiedene Aufgaben und Umgebungen angewendet werden kann. Cosmos Policy ist NVIDIAs Versuch, dieses allgemeine Verständnis in praktische Robotersteuerung umzuwandeln.

Integration in NVIDIAs Robotik-Ökosystem

Cosmos Policy existiert nicht isoliert. Es ist so konzipiert, dass es sich in NVIDIAs breiteres Robotik-Software-Stack integriert, einschließlich Isaac Sim für Simulation, Isaac ROS für Robot Operating System Integration und der Jetson-Hardwareplattform für Edge Computing. Dieser Ökosystem-Ansatz ist ein Schlüsselteil von NVIDIAs Strategie, da eine Steuerpolitik nur nützlich ist, wenn sie effizient auf der Hardware laufen kann, die Roboter tatsächlich tragen, und mit den Softwaresystemen kommunizieren kann, die Roboterflotten verwalten.

NVIDIA sagt, dass Cosmos Policy sowohl in simulierten als auch in realen Manipulationsaufgaben validiert wurde, einschließlich Pick-and-Place-Operationen, Objektübergabe zwischen Robotararmen und Montagetätigkeiten, die eine genaue Ausrichtung von Komponenten erfordern. Das Unternehmen stellt das Modell Entwicklern über seine NVIDIA AI-Plattform zur Verfügung, mit dem Ziel, schnelle Experimente und Bereitstellung über eine breite Palette von Robotikanwendungen zu ermöglichen.

Wettbewerbliche Auswirkungen

Die Einführung von Cosmos Policy positioniert NVIDIA aggressiver im Markt für Robotersteuerungssoftware, der traditionell von spezialisierten Roboterfirmen und Forschungsinstitutionen dominiert wurde. Durch das Angebot eines vortrainierten Weltmodells mit eingebauten Steuerfunktionen senkt NVIDIA die Eintrittsbarriere für Unternehmen, die ausgefeilte Manipulationsroboter einsetzen möchten, aber nicht über die interne AI-Expertise verfügen, um diese Fähigkeiten von Grund auf zu entwickeln.

Konkurrenten in diesem Bereich sind Google DeepMind, das über seine eigene Robotik-Foundation-Modellreihe verfügt, und mehrere Startups, die an verallgemeinertem Roboterlernen arbeiten. NVIDIAs Vorteil liegt in seinem integrierten Hardware-Software-Ökosystem und seiner massiven installierten Basis an GPU-Recheninfrastruktur, die die rechnerische Grundlage bietet, die zum Trainieren und Ausführen von Modellen dieser Komplexität erforderlich ist.

Für die Robotikbranche insgesamt deutet die Ankunft von Cosmos Policy darauf hin, dass die Ära der Allzweck-Robotermanipulation, in der ein einzelner Roboter eine breite Palette von physikalischen Aufgaben ohne aufgabenspezifische Programmierung bewältigen kann, von wissenschaftlicher Ambition zu kommerzieller Realität übergeht. Wie schnell dieser Übergang stattfindet, hängt von der Zuverlässigkeit und Leistung von Systemen wie Cosmos Policy bei realen Bereitstellungen ab, eine Frage, die die Industrie in den kommenden Monaten und Jahren beantworten wird.

Dieser Artikel basiert auf Berichten von The Robot Report. Lesen Sie den ursprünglichen Artikel.