মেটার হাইপারএজেন্টগুলো কাজ এবং স্ব-উন্নয়ন তর্ক, উভয়ই উন্নত করার লক্ষ্য রাখে

মেটা এবং একাডেমিক সহযোগীরা স্ব-উন্নয়নশীল এআইকে আরও এক ধাপ এগিয়ে নিচ্ছেন

মেটা, ইউনিভার্সিটি অব ব্রিটিশ কলাম্বিয়া, এবং অন্যান্য প্রতিষ্ঠানের গবেষকদের মতে, তারা “হাইপারএজেন্ট” নামে একটি নতুন শ্রেণির সিস্টেম তৈরি করেছেন, যা কেবল কাজ সমাধানেই উন্নত হতে পারে না, বরং নিজেদের উন্নত করতে যে প্রক্রিয়া ব্যবহার করে সেটিকেও পরিমার্জন করতে পারে। এই পদ্ধতিটি যদি টিকে যায়, তবে এটি স্ব-উন্নয়নশীল এআই-এর একটি অর্থপূর্ণ বিস্তৃতি হবে, বিশেষ করে যেখানে আগের পদ্ধতিগুলো ভালো কাজ করেছিল, সেই ক্ষেত্রগুলোর বাইরে, বিশেষ করে প্রোগ্রামিং-এ।

The Decoder-এ প্রকাশিত এই কাজটি Darwin Gödel Machine, বা DGM, ফ্রেমওয়ার্কের ওপর ভিত্তি করে। এই ফ্রেমওয়ার্কে একটি এজেন্ট নিজের কোডের ভিন্ন সংস্করণ তৈরি করে, সেগুলো পরীক্ষা করে, এবং সফল সংস্করণগুলো একটি আর্কাইভে সংরক্ষণ করে, যা পরবর্তী পরিমার্জনের ধাপে সহায়তা করতে পারে। সেই আগের ব্যবস্থার প্রধান সীমাবদ্ধতা ছিল, উৎস লেখার মতে, উন্নয়ন নির্দেশ করার প্রক্রিয়াটি মানুষের দ্বারা স্থির করে দেওয়া ছিল। এজেন্ট ওই ফ্রেমওয়ার্কের ভেতরে অপ্টিমাইজ করতে পারত, কিন্তু নিজে ফ্রেমওয়ার্কটি বদলাতে পারত না।

একজন হাইপারএজেন্টকে আলাদা করে কী

প্রস্তাবিত সমাধানটি হলো দুটি কাজকে একটিমাত্র সম্পাদনাযোগ্য প্রোগ্রামের মধ্যে একত্র করা। একটি উপাদান বর্তমান কাজটি সামলায়, যেমন একটি বৈজ্ঞানিক প্রবন্ধ মূল্যায়ন করা বা একটি রোবটের জন্য reward function নকশা করা। অন্য উপাদানটি এজেন্টকে পরিবর্তন করে এবং নতুন ভ্যারিয়েন্ট তৈরি করে। যেহেতু উভয় উপাদান একই codebase-এর মধ্যে থাকে, তাই নীতিগতভাবে সিস্টেম কেবল তার task-solving আচরণই নয়, তার improvement logic-ও পুনর্লিখন করতে পারে।

হাইপারএজেন্ট ধারণার পেছনে এটিই মূল দাবি। একটি স্থির, মানুষের লেখা shell-এর ভেতরে কেবল উন্নতি করার বদলে, এজেন্ট সেই shell-টিকেও অপ্টিমাইজ করতে পারে। উৎস প্রতিবেদনের ভাষায়, এটি কাজেও ভালো হয় এবং “প্রথমে কীভাবে উন্নতি করতে হয়, তা বুঝতেও” ভালো হয়।

এটি গুরুত্বপূর্ণ, কারণ স্ব-উন্নয়ন দীর্ঘদিন ধরে একটি সীমায় এসে থেমেছে। একটি সিস্টেম এক ক্ষেত্রে খুব সক্ষম হতে পারে, তবু এমন হাতে-গড়া ব্যবস্থার ওপর নির্ভর করতে পারে, যেগুলো নিজেরা বিকশিত হয় না। হাইপারএজেন্ট সেই bottleneck দূর করার চেষ্টা, meta-level-কেও সম্পাদনাযোগ্য করে।

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 ঘণ্টার রোবোটিক্স ডেটাসেট ওপেন-সোর্স করল

X Square Robot XRZero-G0 এবং 2,000 ঘণ্টার একটি মাল্টিমোডাল ডেটাসেট প্রকাশ করেছে, যার লক্ষ্য embodied AI সিস্টেমের জন্য বাস্তব-রোবট প্রশিক্ষণ ডেটার প্রয়োজনীয়তা কমানো।

Read article

আগের স্ব-উন্নয়ন কেন ভালোভাবে সাধারণীকৃত হয়নি

প্রদত্ত উৎস পাঠ অনুযায়ী, মূল Darwin Gödel Machine coding tasks-এ সম্ভাবনা দেখিয়েছিল, কারণ একজন ভালো programmer হওয়া এবং আরও ভালো self-modification লেখা—এই দুইয়ের মধ্যে একটি স্বাভাবিক সম্পর্ক আছে। coding-এ, এজেন্টের কাজের দক্ষতা এবং নিজের implementation বদলানোর দক্ষতা ঘনিষ্ঠভাবে যুক্ত।

coding-এর বাইরে সেই সম্পর্ক দুর্বল হয়ে যায়। বৈজ্ঞানিক প্রবন্ধ মূল্যায়নে ভালো হয়ে ওঠা একটি এজেন্ট স্বয়ংক্রিয়ভাবে নিজের code পুনর্লিখনে ভালো হয়ে যায় না। গবেষকদের মতে, এটাই কারণ যে মূল DGM programming-এর বাইরে manual adjustment ছাড়া খারাপভাবে কাজ করেছিল। প্রতিবেদনে বলা হয়েছে, humans হস্তক্ষেপ না করলে সিস্টেম non-programming tasks-এ প্রায় শূন্য performance পেয়েছিল।

হাইপারএজেন্টগুলো সেই failure mode মোকাবিলার জন্য তৈরি। improvement mechanism-টিকেই অপ্টিমাইজ করার সুযোগ দিয়ে, গবেষকরা DGM-এর archive-based evolutionary structure বজায় রাখতে চান, একই সঙ্গে meta-agent-কে স্থায়ীভাবে fixed হওয়া থেকে মুক্ত করতে চান।

নতুন সিস্টেম: DGM-H

দলটি নতুন এই পদ্ধতিকে DGM-Hyperagents, বা DGM-H, নামে অভিহিত করেছে। archive পদ্ধতির একটি key part হিসেবে রয়ে গেছে। সিস্টেম variants তৈরি করে, সেগুলো মূল্যায়ন করে, এবং সফল সংস্করণগুলোকে ভবিষ্যৎ পরিবর্তনের stepping stone হিসেবে ব্যবহার করে। যা বদলায় তা হলো, “meta” component আর locked নেই। architecture এমনভাবে তৈরি করা হয়েছে যাতে এজেন্টের ভালো version তৈরি করার প্রক্রিয়াটিও একই cycle-এর অংশ হিসেবে পরিবর্তন করা যায়।

এটি একটি বড় conceptual shift। অনেক এআই সিস্টেমে স্ব-উন্নয়ন কঠোরভাবে object-level task solver এবং meta-level controller বা training logic-এর মধ্যে বিভাজিত থাকে। DGM-H সেই বিভাজন কমায়, দুটিকেই editable code-এর মধ্যে রাখে। ফলাফল, অন্তত নীতিগতভাবে, এমন একটি সিস্টেম যার unfamiliar domains-এ মানিয়ে নেওয়ার সম্ভাবনা বেশি, যেখানে উন্নতির পথটি task competence-এর সঙ্গে আগে থেকেই পুরোপুরি মেলে না।

Our new community investments in Virginia support local jobs and expand energy affordability.

গুগল ভার্জিনিয়ায় বিনিয়োগ করছে: ১.৫ কোটি ডলারের জ্বালানি তহবিল ও ২,৭৪১টি শিক্ষানবিশ সুযোগ

স্থানীয় চাকরি ও জ্বালানি সাশ্রয় বাড়াতে গুগল ভার্জিনিয়ায় ১.৫ কোটি ডলারের Energy Impact Fund এবং ২,৭৪১টি বৈদ্যুতিক শিক্ষানবিশ সুযোগে সমর্থন ঘোষণা করেছে.

Read article

চারটি task area-তে reported results

candidate text-এ বলা হয়েছে, গবেষকেরা চারটি task area-তে DGM-H পরীক্ষা করে বড় gains রিপোর্ট করেছেন। এই excerpt পূর্ণ numerical results দেয় না, তাই সেগুলো বাড়িয়ে বলা উচিত নয়। যা বলা যায় তা হলো, broader applicability-এর দিক থেকে গবেষক দল সিস্টেমটিকে মূল সেটআপের তুলনায় যথেষ্ট শক্তিশালী হিসেবে উপস্থাপন করছে।

এই দাবি গুরুত্বপূর্ণ, কারণ generality স্ব-উন্নয়নশীল এআই-এর সবচেয়ে কঠিন লক্ষ্যগুলোর একটি। অনেক সিস্টেম সংকীর্ণ পরিস্থিতিতে ভালো কাজ করে, কিন্তু হাতে-তৈরি অনুমানের ওপর নির্ভর করে, যা পরিবেশ বদলালে ভেঙে যায়। যদি হাইপারএজেন্ট বিভিন্ন task type-এ অর্থপূর্ণভাবে উন্নতি করতে পারে, তবে তা আরও নমনীয় autonomous systems-এর দিকে অগ্রগতি হবে।

একই সঙ্গে, প্রদত্ত উপাদান এটিকে গবেষণা হিসেবে বর্ণনা করে, production capability হিসেবে নয়। তাই এটিকে experimental step হিসেবে বোঝা উচিত, ব্যাপকভাবে self-accelerating এআই ইতিমধ্যেই scale-এ চালু আছে এমন প্রমাণ হিসেবে নয়।

এই গবেষণা কেন গুরুত্বপূর্ণ

হাইপারএজেন্টের বৃহত্তর তাৎপর্য হলো তারা frontier-কে কোথায় সরিয়ে নিচ্ছে। এআই গবেষকেরা দীর্ঘদিন ধরে এমন সিস্টেম নিয়ে কাজ করছেন, যা খুঁজে, অপ্টিমাইজ করে বা কোড লিখে performance উন্নত করতে পারে। আরও কঠিন সমস্যা হলো এমন সিস্টেম বানানো, যা revision-এর logic-টাকেই revise করতে পারে, এবং তা যেন অকার্যকর পরিবর্তনে ভেঙে না পড়ে। DGM-H-কে এই recursive loop-টিকে আরও সক্ষম এবং আরও বিস্তৃতভাবে উপযোগী করার একটি প্রচেষ্টা হিসেবে দেখানো হয়েছে।

এই পদ্ধতি যদি robust প্রমাণিত হয়, তবে task skill এবং self-modification skill যেখানে স্বাভাবিকভাবে মেলে না, এমন ক্ষেত্রে এটি গুরুত্বপূর্ণ হতে পারে। scientific analysis, robotics, এবং অন্যান্য complex area উৎস লেখায় উল্লেখিত উদাহরণ। এমন ক্ষেত্রে, একটি সিস্টেমের মূল্য শুধু কাজ করার ক্ষমতায় নয়, বরং কীভাবে শেখে এবং কীভাবে adapt করে, সেটি redesign করার ক্ষমতাতেও নির্ভর করতে পারে।

এই সম্ভাবনাই ব্যাখ্যা করে, কেন কাজটি প্রযুক্তিগত বিবরণের বাইরেও দৃষ্টি আকর্ষণ করে। নিজের optimizer-কে optimize করতে পারে এমন একটি সিস্টেম, এআই capability growth, safety, evaluation, এবং control-এর মৌলিক প্রশ্নগুলোকে স্পর্শ করে। প্রদত্ত প্রতিবেদনে performance gains-এর ওপর জোর দেওয়া হয়েছে, কিন্তু একই architectural idea oversight এবং alignment নিয়ে উদ্বিগ্ন গবেষকদের কাছ থেকেও scrutiny পাবে।

একটি ধাপে ধাপে, কিন্তু উল্লেখযোগ্য পদক্ষেপ

উপলব্ধ উপাদানের ভিত্তিতে সবচেয়ে নিরাপদ উপসংহার হলো, মেটা এবং তার সহযোগীরা স্ব-উন্নয়নের একটি আরও নমনীয় মডেল এগিয়ে নিচ্ছেন, runaway recursive intelligence-এর সমাধান করা পথ দেখাচ্ছেন না। এই গবেষণা আগের self-modification approaches-এর একটি নির্দিষ্ট দুর্বলতাকে সমাধান করে এবং একাধিক task area-তে অগ্রগতির দাবি করে।

এটিই একে উল্লেখযোগ্য করে তোলে। স্ব-উন্নয়নশীল এআই প্রায়ই বিমূর্ত বা অনুমানভিত্তিক ভাষায় আলোচনা করা হয়। হাইপারএজেন্ট সেই আলোচনাকে আরও নির্দিষ্ট প্রযুক্তিগত রূপ দেয়: editable meta-mechanisms, archive-based iteration, এবং software engineering-এর বাইরে generalized হওয়ার একটি স্পষ্ট চেষ্টা। এই পদ্ধতি মৌলিক হয়ে উঠবে, নাকি একটি কার্যকর পরীক্ষাই থেকে যাবে, তা এখানে দেওয়া সারাংশের বাইরে ফলাফলের ওপর নির্ভর করবে। কিন্তু একটি research direction হিসেবে, এটি এআই-এর সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলোর একটির দিকে স্পষ্টভাবে লক্ষ্য করে: শুধু সিস্টেম উন্নত হতে পারে কি না, তা নয়, বরং improvement-এর প্রক্রিয়াটিকেও তারা উন্নত করতে পারে কি না।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com

মেটা-র গবেষকেরা বলছেন ‘হাইপারএজেন্ট’ কাজের পাশাপাশি সেগুলো কীভাবে উন্নত হয়, সেটিও উন্নত করতে পারে