হিউম্যানয়েড রোবটের জন্য চলাফেরার চেয়ে বড় চ্যালেঞ্জ: মানুষের কাছে নিরাপদে কাজ করা

আসল চ্যালেঞ্জ শুধু হাঁটা নয়

হিউম্যানয়েড রোবট নিয়ন্ত্রিত প্রদর্শনী থেকে মানুষের সঙ্গে ভাগ করা পরিবেশে এগোতে থাকায়, একটি সমস্যা শুদ্ধ চলাচলের চেয়েও বেশি কেন্দ্রীয় হয়ে উঠছে: পরিস্থিতি-সচেতনতা। The Robot Report-এ প্রকাশিত সাম্প্রতিক শিল্প বিশ্লেষণ বলছে, হিউম্যানয়েড সিস্টেমকে শুধু ভারসাম্য রাখা, হাঁটা এবং বস্তু পরিচালনা করাই নয়, মানুষের উপস্থিতি অনুভব করা, দ্রুত বদলে যাওয়া পরিবেশ ব্যাখ্যা করা এবং ক্ষতি এড়াতে যথেষ্ট দ্রুত প্রতিক্রিয়া জানাতেও সক্ষম হতে হবে।

এই দৃষ্টিভঙ্গি কার্যকর, কারণ এটি নজরকে প্রদর্শন থেকে সিস্টেম ইঞ্জিনিয়ারিংয়ের দিকে সরিয়ে আনে। মানুষের পাশে কাজ করা হিউম্যানয়েড রোবটকে মানুষের প্রায় স্বয়ংক্রিয়ভাবে ব্যবহৃত ক্ষমতাগুলো অনুকরণ করতে হবে: ভারসাম্য ধরে রাখা, চলমান বাধা শনাক্ত করা, ভিজ্যুয়াল ও অডিও ইনপুট ব্যাখ্যা করা, এবং ভগ্নাংশ সেকেন্ডে আচরণ সামঞ্জস্য করা। রোবোটিক্সে এর মানে হলো সেন্সর, প্রসেসর, যোগাযোগ লিঙ্ক এবং নিয়ন্ত্রণ লুপজুড়ে ছড়িয়ে থাকা একটি ঘন সমন্বয় সমস্যা।

ভিশন মৌলিক, কিন্তু লেটেন্সিই সীমা

রিপোর্টটি হিউম্যানয়েড পরিস্থিতি-সচেতনতার শুরু হিসেবে ভিশনকে গুরুত্ব দিচ্ছে। RGB image sensors মানসম্মত ভিজ্যুয়াল ইনপুট অনুকরণ করতে পারে, আর depth যোগ করা যায় time-of-flight, structured light বা stereo vision systems দিয়ে। কিন্তু ছবি সংগ্রহ করা কেবল শুরু। আসল কঠিন কাজ হলো সেই তথ্যকে যথেষ্ট দ্রুত রোবটের ভেতর দিয়ে নিয়ে যাওয়া, যাতে তা কাজের নির্দেশনা দিতে পারে।

উন্নত রোবোটিক্সে এই চ্যালেঞ্জ বারবার দেখা যায়। ক্যামেরা প্রায়শই মাথা বা ধড়ে থাকে, আর মূল প্রসেসর অন্য কোথাও থাকে, ফলে যন্ত্রের ভেতরে দীর্ঘ data path তৈরি হয়। এই পথগুলো latency আনতে পারে, আর মানুষের কাছাকাছি দ্রুত নড়াচড়া করার সময় latency বিপজ্জনক হয়ে ওঠে। বিশ্লেষণটি বলছে, কম-latency প্রয়োজন কিছু processing-কে কেন্দ্রীয় কম্পিউটারের ওপর নির্ভর না করে সংশ্লিষ্ট sensor বা actuator-এর কাছাকাছি নিয়ে যেতে বাধ্য করতে পারে।

অন্য কথায়, হিউম্যানয়েড সচেতনতা শুধু perception সমস্যা নয়। এটি architecture সমস্যাও। রোবটকে দেখতে হবে, কিন্তু নিজের শরীরের ভেতর তথ্য ও সিদ্ধান্ত সময়মতো পৌঁছে দিতেও হবে।

Create, edit and star in videos with two Google Vids updates

Google Vids-এ Gemini Omni এবং ব্যক্তিগত অ্যাভাটার যুক্ত হলো

Google Workspace-এ AI ভিডিও তৈরি আরও বিস্তৃত করছে, যেখানে প্রম্পট-ভিত্তিক ক্লিপ জেনারেশন ও এডিটিং, পাশাপাশি সেলফি ও ভয়েস রেকর্ডিং থেকে তৈরি কাস্টম অ্যাভাটার রয়েছে।

Read article

শেয়ার করা জায়গায় নিরাপত্তার জন্য দ্রুত একীভূতকরণ দরকার

এই নিবন্ধটি অনিশ্চয়তা নিয়ে একটি বিস্তৃত কথা বলে। মানুষ স্থির বাধা নয়। তারা হঠাৎ নড়ে, উদ্দেশ্য বদলায় এবং অসংগত আচরণ করে। একটি warehouse aisle-এর জন্য, যেখানে ভেরিয়েবলগুলো কঠোরভাবে সীমাবদ্ধ, ডিজাইন করা রোবট মানুষের আরও কাছাকাছি নিরাপদে কাজ করতে হবে এমন রোবটের তুলনায় ভিন্ন কাজ করছে।

এর মানে sensor fusion এবং timing কেন্দ্রীয় হয়ে যায়। ভিজ্যুয়াল ইনপুট, ভারসাম্য তথ্য এবং actuator response সমন্বিত হতে হবে, যাতে রোবটের চারপাশে একটি নিরাপদ কাজের এলাকা নির্ধারিত হয় এবং সেটি real time-এ আপডেট হয়। যদি সিস্টেম ধীর, অসামঞ্জস্যপূর্ণ বা ওভারলোডেড হয়, তবে হিউম্যানয়েড ডেমোতে সক্ষম দেখালেও মিশ্র পরিবেশে ব্যবহারিক স্থাপনার জন্য অনুপযুক্ত থাকতে পারে।

এ কারণেই হিউম্যানয়েড প্রতিযোগিতা headline videos-এ যত দ্রুত দেখায়, বাস্তবে ততটা দ্রুত নাও হতে পারে; এটি আরও বেশি অবকাঠামো-নির্ভর। সীমাটা শুধু ভালো হাত বা বেশি স্বাভাবিক হাঁটা নয়। সেটি uncertainty-এর মধ্যে deterministic system behavior।

হার্ডওয়্যার স্ট্যাক সম্পর্কে নিবন্ধটি কী বলে

নিবন্ধটি Gigabit Multimedia Serial Link, অর্থাৎ GMSL-কে এমন একটি প্রযুক্তি হিসেবে দেখাচ্ছে, যা visual data কম latency-তে দীর্ঘ অভ্যন্তরীণ দূরত্বে পাঠাতে সাহায্য করে। রিপোর্টে বলা হয়েছে, এই প্রযুক্তি automotive systems-এ আগে থেকেই প্রতিষ্ঠিত এবং এখন robotics-এর জন্যও প্রাসঙ্গিক, কারণ উভয় ক্ষেত্রেই কঠোর বা গতিশীল পরিস্থিতিতে sensor data নির্ভরযোগ্যভাবে পরিবহন করতে হয়।

এই তুলনাটি তাৎপর্যপূর্ণ। Automotive advanced driver-assistance systems-কে এখনকার robotics-এর মতো অনেক বাস্তব সমস্যা সমাধান করতে হয়েছে, যার মধ্যে synchronization, cable constraints, এবং বাস্তব পরিবেশে নির্ভরযোগ্য perception রয়েছে। হিউম্যানয়েড রোবট গাড়ি নয়, কিন্তু তাদেরও একটি শক্তিশালী sensing pipeline দরকার, যা পরিবেশ বিশৃঙ্খল হলেই কেবলমাত্র ভেঙে পড়বে না।

নিবন্ধটি শিল্প-প্রযোজিত, তাই কোনো একক প্রযুক্তি দাবিকে অতিরঞ্জিতভাবে নেওয়া ঠিক নয়। তবু এর প্রকৌশলগত যুক্তি মোটের ওপর বিশ্বাসযোগ্য: মানুষের কাছে কাজ করা রোবটের জন্য raw image quality নয়, latency, synchronization, এবং নিরাপদ প্রতিক্রিয়াকে কেন্দ্র করে তৈরি perception systems দরকার।

এখন কেন এটি গুরুত্বপূর্ণ

এই লেখার গুরুত্ব হলো এটি bottleneck কোথায় রাখছে। হিউম্যানয়েড নিয়ে জনচর্চা প্রায়ই সাধারণ-উদ্দেশ্য robot workers-এর hype আর mobility demos-ভিত্তিক skepticism-এর মধ্যে দুলতে থাকে। এই বিশ্লেষণ বলছে, বাস্তব bottleneck হয়তো অন্য কোথাও। মানুষের সঙ্গে সামঞ্জস্যপূর্ণ অপারেশন machine speed-এ অনিশ্চয়তা সামলাতে সক্ষম sensing এবং control-এর সম্পূর্ণ stack-এর ওপর নির্ভরশীল।

যদি তা ঠিক হয়, তবে হিউম্যানয়েডে পরবর্তী অর্থপূর্ণ অগ্রগতি theatrical movement-এর চেয়ে data transport, local processing, এবং sensor integration-এ কম দৃশ্যমান কিন্তু গুরুত্বপূর্ণ উন্নতি থেকে আসতে পারে। এগুলো বাজারজাত করা কঠিন, কিন্তু এগুলোই একটি রোবটকে শুধু চমকপ্রদ যন্ত্র না রেখে এমন সিস্টেমে রূপ দেয়, যা বাস্তব কর্মক্ষেত্রে নিরাপত্তা-ঝুঁকি না হয়ে প্রবেশ করতে পারে।

মূল শিক্ষা সহজ। হিউম্যানয়েড রোবোটিক্সে intelligence শুধু planning বা language নয়। এটি খুবই বাস্তব অর্থে room পড়ার ব্যাপার, এবং এমন নির্ভরযোগ্যভাবে তা করার ব্যাপার, যাতে মানুষ পাশের যন্ত্রটির ওপর ভরসা করতে পারে।

এই নিবন্ধটি The Robot Report-এর প্রতিবেদনের ওপর ভিত্তি করে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on therobotreport.com

মানুষের কাছে নিরাপদে কাজ করা: হিউম্যানয়েড রোবটের আসল চ্যালেঞ্জ