Dari Model Dunia ke Kontrol Robot
NVIDIA telah mengumumkan Cosmos Policy, penambahan baru pada keluarga world foundation models-nya yang terus berkembang, menjembatani kesenjangan antara pemahaman lingkungan dan kontrol robot fisik. Model ini dibangun di atas Cosmos Predict-2, world foundation model yang ada dari NVIDIA yang menghasilkan prediksi tentang bagaimana lingkungan fisik akan berubah seiring waktu. Cosmos Policy mengambil prediksi tersebut dan menerjemahkannya menjadi sinyal kontrol yang dapat ditindaklanjuti yang dapat digunakan robot untuk melakukan tugas manipulasi kompleks.
Pengumuman ini mewakili evolusi signifikan dalam pendekatan NVIDIA terhadap AI robotika. Daripada melatih robot untuk melakukan tugas spesifik melalui demonstrasi ekstensif atau rekayasa reward, Cosmos Policy memanfaatkan pemahaman generalisasi tentang dinamika fisik untuk memungkinkan perilaku robot yang lebih fleksibel dan adaptif. Pada prinsipnya, robot yang dilengkapi dengan Cosmos Policy harus dapat mendekati tugas manipulasi baru dengan pemahaman mendasar tentang bagaimana objek berinteraksi satu sama lain dan dengan tubuh robot itu sendiri.
Cara Kerja Cosmos Policy
Pada intinya, Cosmos Policy adalah lapisan post-training yang diterapkan pada world foundation model Cosmos Predict-2. Cosmos Predict-2 dilatih pada jumlah besar data video yang menunjukkan interaksi fisik dunia nyata, dan mempelajari cara memprediksi apa yang akan terjadi selanjutnya dalam skenario tertentu. Diberikan gambar meja dengan objek di atasnya, misalnya, model dapat memprediksi bagaimana objek tersebut akan bergerak jika didorong, diangkat, atau dijatuhkan.
Cosmos Policy dibangun di atas kemampuan prediktif ini dengan menambahkan kebijakan kontrol yang menentukan tindakan apa yang harus diambil robot untuk mencapai hasil yang diinginkan. Sistem bekerja melalui proses berikut:
- Pemahaman skenario: Robot menggunakan kamera dan sensor untuk menangkap keadaan saat ini lingkungannya, dan Cosmos Predict-2 membangun representasi internal dari dinamika fisik skenario.
- Spesifikasi tujuan: Operator atau sistem perencanaan tingkat lebih tinggi menentukan apa yang harus dicapai robot, seperti mengambil objek, menempatkannya di lokasi tertentu, atau merakit komponen.
- Pembuatan tindakan: Cosmos Policy menggunakan pemahaman world model tentang fisika untuk menghasilkan urutan perintah motor yang akan menggerakkan lengan dan gripper robot untuk mencapai tujuan.
- Adaptasi real-time: Saat robot melaksanakan tugas, sistem terus memperbarui prediksinya berdasarkan data sensor baru, memungkinkannya menyesuaikan tindakannya jika lingkungan berubah secara tiba-tiba.
Pendekatan ini secara fundamental berbeda dari pemrograman robot tradisional, di mana insinyur secara manual menentukan setiap gerakan, atau dari reinforcement learning murni, di mana robot harus belajar sepenuhnya melalui coba-coba. Dengan memulai dengan pemahaman pre-trained tentang dinamika fisik, Cosmos Policy memberi robot awal yang signifikan pada tugas baru.
Mengapa World Foundation Models Penting untuk Robotika
Konsep world foundation models telah mendapatkan daya tarik di komunitas penelitian robotika dan AI selama beberapa tahun, namun keluarga Cosmos dari NVIDIA mewakili salah satu implementasi komersial paling ambisius dari ide tersebut. Wawasan inti adalah bahwa robot yang beroperasi di dunia fisik membutuhkan lebih dari pengenalan pola atau pemahaman bahasa. Mereka membutuhkan pemahaman intuitif tentang fisika, jenis pemahaman yang memungkinkan manusia memprediksi bahwa gelas yang ditempatkan di tepi meja akan jatuh, atau bahwa objek berat memerlukan lebih banyak kekuatan untuk diangkat daripada yang ringan.
Pendekatan tradisional terhadap pembelajaran robot telah berjuang dengan ini. Reinforcement learning dapat menghasilkan hasil yang mengesankan untuk tugas spesifik, tetapi pengetahuan sering kali tidak ditransfer dengan baik ke situasi baru. Imitation learning memerlukan data demonstrasi ekstensif untuk setiap tugas baru. Dan pemrograman manual terlalu kaku untuk lingkungan yang berubah dengan sering.
World foundation models menawarkan jalur potensial melalui keterbatasan ini. Dengan melatih model tunggal pada jumlah besar data video dunia nyata, sistem yang dihasilkan mengembangkan pemahaman umum tentang dinamika fisik yang dapat diterapkan di banyak tugas dan lingkungan yang berbeda. Cosmos Policy adalah upaya NVIDIA untuk mengubah pemahaman umum tersebut menjadi kontrol robot praktis.
Integrasi dengan Ekosistem Robotika NVIDIA
Cosmos Policy tidak ada dalam isolasi. Dirancang untuk diintegrasikan dengan stack software robotika yang lebih luas dari NVIDIA, termasuk Isaac Sim untuk simulasi, Isaac ROS untuk integrasi robot operating system, dan platform Jetson untuk edge computing. Pendekatan ekosistem ini adalah bagian kunci dari strategi NVIDIA, karena kebijakan kontrol hanya berguna jika dapat berjalan secara efisien pada perangkat keras yang benar-benar dibawa robot dan berkomunikasi dengan sistem software yang mengelola armada robot.
NVIDIA mengatakan Cosmos Policy telah divalidasi dalam tugas manipulasi baik simulasi maupun dunia nyata, termasuk operasi pick-and-place, handoff objek antara lengan robot, dan tugas perakitan yang memerlukan penyelarasan presisi komponen. Perusahaan membuat model tersedia untuk pengembang melalui platform NVIDIA AI, dengan tujuan untuk memungkinkan eksperimen cepat dan deployment di berbagai aplikasi robotik.
Implikasi Kompetitif
Pengenalan Cosmos Policy memposisikan NVIDIA lebih agresif di pasar software kontrol robot, yang secara tradisional didominasi oleh perusahaan robotika khusus dan institusi penelitian. Dengan menawarkan world model pre-trained dengan kemampuan kontrol bawaan, NVIDIA menurunkan hambatan masuk bagi perusahaan yang ingin menerapkan robot manipulasi canggih tetapi kekurangan keahlian AI internal untuk membangun kemampuan ini dari awal.
Pesaing di ruang ini termasuk Google DeepMind, yang memiliki lini robotika foundation models sendiri, dan beberapa startup yang mengerjakan generalizable robot learning. Keunggulan NVIDIA terletak pada ekosistem hardware-software terintegrasi dan basis installed base GPU computing yang besar, yang menyediakan fondasi komputasi yang diperlukan untuk melatih dan menjalankan model dari kompleksitas ini.
Untuk industri robotika secara keseluruhan, kedatangan Cosmos Policy menunjukkan bahwa era manipulasi robot general-purpose, di mana robot tunggal dapat menangani berbagai tugas fisik tanpa pemrograman khusus tugas, bergerak dari aspirasi penelitian menuju realitas komersial. Seberapa cepat transisi itu terjadi akan bergantung pada keandalan dan kinerja sistem seperti Cosmos Policy dalam deployment dunia nyata, pertanyaan yang akan dijawab industri selama berbulan-bulan dan tahun-tahun mendatang.
Artikel ini didasarkan pada pelaporan oleh The Robot Report. Baca artikel asli.

