ওয়ার্ল্ড অ্যাকশন মডেলস রোবটদের নড়ার আগে ফলাফল অনুকরণ করতে সাহায্য করতে পারে

রোবোটিক্স গবেষকেরা প্রতিক্রিয়াশীল এআইয়ের সীমা ছাড়িয়ে এগোচ্ছেন

আজকের রোবোটিক্স সিস্টেমগুলোর একটি মৌলিক দুর্বলতা হলো, এর অনেকগুলোই ক্যামেরা যা দেখে তা থেকে মেশিনের পরের কোন নড়াচড়া করা উচিত, সেই সরাসরি মানচিত্রণ শিখে ফেলে। এতে উপকারী আচরণ তৈরি হতে পারে, কিন্তু বোঝাপড়ায় একটি ফাঁক থেকে যায়। রোবট কোনো নির্দিষ্ট ছবির পর সাধারণত কোন কাজটি আসে তা শিখতে পারে, কিন্তু তার নিজের কাজ পৃথিবীকে কীভাবে বদলে দেয়, তা শেখে না।

সরবরাহ করা প্রতিবেদনে আলোচিত একটি নতুন পর্যালোচনা প্রবন্ধ যুক্তি দিচ্ছে যে ওয়ার্ল্ড অ্যাকশন মডেলস, বা WAMs, এই ফাঁকটি পূরণ করার জন্য তৈরি। শুধু পর্যবেক্ষণকে কাজের সঙ্গে জোড়া লাগানোর বদলে, এই মডেলগুলো কোনো কাজ সম্পন্ন হওয়ার পর পরিবেশ কীভাবে বদলাবে তাও অনুমান করে। কার্যত, এগুলো রোবটকে নড়াচড়া করার আগে স্বল্পমেয়াদি ফলাফল অনুকরণ করার একটি উপায় দেয়।

এটি কেন গুরুত্বপূর্ণ

এর ব্যবহারিক সম্ভাবনা উল্লেখযোগ্য। যদি কোনো রোবট কার্যকর করার আগে তার নড়াচড়ার ফলাফল মডেল করতে পারে, তাহলে তা অপরিচিত বস্তু ও পরিবেশে আরও ভালোভাবে সাধারণীকরণ করতে পারবে। এটি রোবোটিক্সের একটি বড় চ্যালেঞ্জ, যেখানে সিস্টেমগুলো প্রায়ই সংকীর্ণ প্রশিক্ষণ পরিস্থিতিতে ভালো কাজ করে, কিন্তু পরিবেশ বদলালে দুর্বল হয়ে পড়ে।

সরবরাহ করা প্রতিবেদন আরেকটি সুবিধার কথাও বলছে: প্রশিক্ষণ ডেটা। ঐতিহ্যবাহী রোবোটিক্স সিস্টেমগুলো প্রায়ই এমন ডেটাসেটের ওপর নির্ভর করে যেখানে রোবটের কাজগুলো লেবেল করা থাকে, যা তৈরি করা ব্যয়বহুল এবং ধীর। ওয়ার্ল্ড অ্যাকশন মডেলস লেবেলহীন দৈনন্দিন ভিডিও থেকেও, এমনকি প্রথম-ব্যক্তির ফুটেজ থেকেও, শিখতে পারে, কারণ তারা কেবল নির্দেশনা শিখছে না। তারা কাজ এবং পরিবর্তনশীল দৃশ্যমান বিশ্বের মধ্যকার সম্পর্ক শিখছে।

Create, edit and star in videos with two Google Vids updates

Google Vids-এ Gemini Omni এবং ব্যক্তিগত অ্যাভাটার যুক্ত হলো

Google Workspace-এ AI ভিডিও তৈরি আরও বিস্তৃত করছে, যেখানে প্রম্পট-ভিত্তিক ক্লিপ জেনারেশন ও এডিটিং, পাশাপাশি সেলফি ও ভয়েস রেকর্ডিং থেকে তৈরি কাস্টম অ্যাভাটার রয়েছে।

Read article

দুটি প্রধান নকশা-শাখা গড়ে উঠছে

সমীক্ষা অনুযায়ী, প্রায় একশোটি প্রবন্ধ এই মডেল শ্রেণির মধ্যে পড়ে, এবং লেখকেরা এগুলোকে দুইটি বিস্তৃত স্থাপত্য পরিবারের মধ্যে ভাগ করেছেন। এক ধারায় আগে একটি অনুমানভিত্তিক ভবিষ্যৎ ভিডিও তৈরি করা হয়, তারপর সেই পূর্বাভাস থেকে নিয়ন্ত্রণ নির্দেশনা বের করা হয়। অন্যটি ভিজ্যুয়াল ইনপুট এবং কাজগুলোকে সমান্তরালে যৌথভাবে প্রক্রিয়া করে।

এই বিভাজন গুরুত্বপূর্ণ, কারণ এটি দেখায় যে ক্ষেত্রটি বিচ্ছিন্ন পরীক্ষানিরীক্ষা থেকে নিজের অভ্যন্তরীণ কাঠামোসহ একটি স্বীকৃত গবেষণা ক্ষেত্রে পরিণত হচ্ছে। ২০২৪ সালের পর থেকে এই শাখাগুলো কীভাবে বিস্তৃত হয়েছে, সমীক্ষা তা অনুসরণ করেছে; ফলে রোবোটিক্স গবেষকদের জন্য পূর্বাভাস ও নিয়ন্ত্রণকে একত্র করার চেষ্টা করা সিস্টেমগুলোর তুলনার জন্য একটি যৌথ কাঠামো তৈরি হয়েছে।

শুধু বিশ্ব মডেলের বাইরে

সরবরাহ করা প্রবন্ধটি একটি গুরুত্বপূর্ণ পার্থক্য উল্লেখ করছে। একটি বিশুদ্ধ ভিডিও জেনারেটর সম্ভাব্য ভবিষ্যতের ফ্রেম তৈরি করতে পারে, কিন্তু শুধু সেটাই নিয়ন্ত্রণের জন্য উপযোগী করে তোলে না। ওয়ার্ল্ড অ্যাকশন মডেলসের লক্ষ্য হলো একই সঙ্গে দুইটি শর্ত পূরণ করা: পরিবেশের পরবর্তী অবস্থা অনুমান করা এবং সেই পূর্বাভাসকে সরাসরি কাজ-উৎপাদনের সঙ্গে যুক্ত করা।

এটি WAMs-কে বিশেষভাবে প্রাসঙ্গিক করে তোলে, কারণ রোবোটিক্স ক্ষেত্রটি চমকপ্রদ ডেমো থেকে আরও নির্ভরযোগ্য embodied সিস্টেমের দিকে এগোতে চাইছে। যে রোবট নিকট ভবিষ্যৎ কল্পনা করতে পারে এবং সেটিকে মোটর সিদ্ধান্তের সঙ্গে যুক্ত করতে পারে, সে কেবল প্রতিক্রিয়াশীল থাকার চেয়ে দূরদর্শিতাসম্পন্নভাবে কাজ করার অনেক কাছাকাছি।

আরও অভিযোজ্য রোবটের দিকে এক ধাপ

ওয়ার্ল্ড অ্যাকশন মডেলস এখনও একটি গবেষণা কাঠামো, চূড়ান্ত পণ্য শ্রেণি নয়। তবে সরবরাহ করা প্রতিবেদনে বর্ণিত সমীক্ষা ইঙ্গিত দেয় যে এটি রোবোটিক্স এআইয়ের পরবর্তী ঢেউয়ের জন্য একটি গুরুত্বপূর্ণ সংগঠক ধারণা হয়ে উঠতে পারে। যদি এই পদ্ধতি প্রত্যাশামতো কাজ করে, তাহলে রোবট কম ভঙ্গুর, অত্যন্ত যত্নে বাছাই করা লেবেলের ওপর কম নির্ভরশীল, এবং কাজ করার আগে সম্ভাব্য ফলাফল নিয়ে যুক্তি করে অপরিচিত পরিবেশ সামলাতে আরও সক্ষম হতে পারে।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com

ওয়ার্ল্ড অ্যাকশন মডেলস রোবটদের ফলাফল আরও ভালোভাবে বুঝতে সাহায্য করতে চায়