Das Datenproblem in der Robotik

Das Lehren eines Roboters, Objekte in der physischen Welt zu manipulieren, hat historisch gesehen enorme Mengen an von Menschen gesammelten Demonstrationsdaten erfordert. Googles DeepMind RT-1 System benötigte 130.000 Episoden von Daten, die über 17 Monate von menschlichen Operatoren gesammelt wurden. Der DROID-Datensatz umfasst 76.000 ferngesteuerte Trajektorien, die über 13 Forschungsinstitutionen gesammelt wurden — etwa 350 Stunden menschlicher Arbeit. Diese Zahlen spiegeln nicht nur die Größe der Herausforderung wider, sondern auch die wirtschaftliche Konzentration, die sie erzeugt: Nur eine kleine Anzahl von gut ausgestatteten Laboren kann sich die Datenerfassung leisten, die für das Training konkurrenzfähiger Manipulationssysteme erforderlich ist.

Das Allen Institute for AI — Ai2 — schlägt mit MolmoBot ein anderes Modell vor, ein Robotermanipulationssystem, das in erster Linie aus Daten von virtuellen Simulationen und nicht aus physischen Demonstrationen trainiert wird. Die Forschung zeigt, dass dieses in Simulation trainierte Modell seine Fähigkeiten auf echte physische Robotersysteme übertragen kann, ein Ergebnis, das den Zugang zu leistungsstarker robotischer Manipulations-KI erheblich demokratisieren könnte.

Warum Simulation historisch nicht übertragen hat

Die Lücke zwischen Simulationsleistung und realer Leistung — die „Sim-to-Real-Lücke" — war ein ständiges Hindernis. Physische Roboter stoßen auf eine Fülle von Sinneseingaben, Umweltvariabilität und Kontaktdynamik, die Simulationsumgebungen treu nachzubilden Schwierigkeiten haben. Ein Roboter, der vollständig in Simulation trainiert wurde, kann mit der realen Unordnung, die seine Trainingsumgebung abstrahiert hat, oft nicht umgehen.

Frühere Versuche, diese Lücke zu überbrücken, stützten sich auf Domain-Randomisierung — absichtliche Variation von Simulationsparametern wie Beleuchtung, Objekttexturen und Physik-Eigenschaften, um Roboter zu zwingen, Darstellungen zu entwickeln, die sich über Bedingungen verallgemeinern. Dieser Ansatz hat beim Lokomotion teilweisen Erfolg erzielt, war aber bei geschickten Manipulationsaufgaben, die feinen motorischen Kontrolle und genaue Kontaktkraftmanagement erfordern, weniger wirksam.

MolmoBot-Ansatz

MolmoBot baut auf Ai2s Molmo Vision-Sprachmodell auf, das dem System ein reiches Verständnis visueller Szenen und Sprachanweisungen vermittelt. Die Schlüsselinnovation besteht darin, wie Simulationsdaten für das Manipulationstraining generiert und kuratiert werden. Anstatt eine einzelne Simulationsumgebung zu verwenden, entwickelte das Team eine Pipeline zur Erzeugung vielfältiger Manipulationsszenarien mit ausreichender physikalischer Genauigkeit, um verallgemeinerbare Fähigkeiten zu trainieren.

Das System kombiniert verbesserte Simulationsgenauigkeit bei Kontaktdynamik mit einem Ansatz zum Repräsentationenlernen, der explizit Invarianzen zu den visuellen Unterschieden zwischen simulierten und realen Umgebungen aufbaut. Der Roboter lernt, aufgabenrelevante visuelle Merkmale zu identifizieren — die Grifferposition, das manipulierte Objekt, den Zielort — die über Simulation und Realität ähnlich aussehen, anstatt Darstellungen zu erlernen, die simulationsspezifische visuelle Artefakte kodieren.

Das Demokratisierungsargument

Das wirtschaftliche Argument für simulationsbasiertes Training ist unkompliziert. Die Generierung von Simulationsdaten erfordert Recheninfrastruktur, aber keine physischen Roboter, nicht trainierte menschliche Operatoren und nicht die institutionelle Koordination, die zur Aggregation großer Demonstrationsdatensätze erforderlich ist. Ein Forschungsteam an einer kleinen Universität mit Zugriff auf einen Computecluster kann Millionen von simulierten Manipulationsepisoden in der Zeit generieren, die ein gut ausgestattetes Labor benötigt, um Zehntausende physischer Demonstrationen zu sammeln.

Wenn simulationstrainierte Modelle die Leistung physisch trainierter Systeme erreichen oder annähern können — was MolmoBots Ergebnisse für eine bedeutungsvolle Klasse von Manipulationsaufgaben zu erreichen scheinen — werden die Fähigkeiten der robotischen Manipulations-KI für eine viel breitere Forschungsgemeinschaft zugänglich.

Offene Veröffentlichung

In Übereinstimmung mit Ai2s Forschungsphilosophie wird das MolmoBot-System und seine Simulationstrainingspipeline offen veröffentlicht. Der Datensatz von Manipulationstrauma-Trajektorien, die trainierten Modellgewichte und die Simulationsumgebungswerkzeuge werden alle der Forschungsgemeinschaft zur Verfügung gestellt — ein Ansatz, der direkt den Gegensatz zu den proprietären Daten- und Modellstrategien von kommerziellen Robotik-KI-Programmen, die das Feld angeführt haben, darstellt. CEO Ali Farhadi nannte das Ziel explizit: KI aufbauen, die Wissenschaft durch Werkzeuge vorantreibt, auf denen die globale Forschungsgemeinschaft zusammen aufbauen kann.

Dieser Artikel basiert auf Berichterstattung von AI News. Lesen Sie den Originalartikel.

Originally published on artificialintelligence-news.com