মেটা এবং একাডেমিক সহযোগীরা স্ব-উন্নয়নশীল এআইকে আরও এক ধাপ এগিয়ে নিচ্ছেন

মেটা, ইউনিভার্সিটি অব ব্রিটিশ কলাম্বিয়া, এবং অন্যান্য প্রতিষ্ঠানের গবেষকদের মতে, তারা “হাইপারএজেন্ট” নামে একটি নতুন শ্রেণির সিস্টেম তৈরি করেছেন, যা কেবল কাজ সমাধানেই উন্নত হতে পারে না, বরং নিজেদের উন্নত করতে যে প্রক্রিয়া ব্যবহার করে সেটিকেও পরিমার্জন করতে পারে। এই পদ্ধতিটি যদি টিকে যায়, তবে এটি স্ব-উন্নয়নশীল এআই-এর একটি অর্থপূর্ণ বিস্তৃতি হবে, বিশেষ করে যেখানে আগের পদ্ধতিগুলো ভালো কাজ করেছিল, সেই ক্ষেত্রগুলোর বাইরে, বিশেষ করে প্রোগ্রামিং-এ।

The Decoder-এ প্রকাশিত এই কাজটি Darwin Gödel Machine, বা DGM, ফ্রেমওয়ার্কের ওপর ভিত্তি করে। এই ফ্রেমওয়ার্কে একটি এজেন্ট নিজের কোডের ভিন্ন সংস্করণ তৈরি করে, সেগুলো পরীক্ষা করে, এবং সফল সংস্করণগুলো একটি আর্কাইভে সংরক্ষণ করে, যা পরবর্তী পরিমার্জনের ধাপে সহায়তা করতে পারে। সেই আগের ব্যবস্থার প্রধান সীমাবদ্ধতা ছিল, উৎস লেখার মতে, উন্নয়ন নির্দেশ করার প্রক্রিয়াটি মানুষের দ্বারা স্থির করে দেওয়া ছিল। এজেন্ট ওই ফ্রেমওয়ার্কের ভেতরে অপ্টিমাইজ করতে পারত, কিন্তু নিজে ফ্রেমওয়ার্কটি বদলাতে পারত না।

একজন হাইপারএজেন্টকে আলাদা করে কী

প্রস্তাবিত সমাধানটি হলো দুটি কাজকে একটিমাত্র সম্পাদনাযোগ্য প্রোগ্রামের মধ্যে একত্র করা। একটি উপাদান বর্তমান কাজটি সামলায়, যেমন একটি বৈজ্ঞানিক প্রবন্ধ মূল্যায়ন করা বা একটি রোবটের জন্য reward function নকশা করা। অন্য উপাদানটি এজেন্টকে পরিবর্তন করে এবং নতুন ভ্যারিয়েন্ট তৈরি করে। যেহেতু উভয় উপাদান একই codebase-এর মধ্যে থাকে, তাই নীতিগতভাবে সিস্টেম কেবল তার task-solving আচরণই নয়, তার improvement logic-ও পুনর্লিখন করতে পারে।

হাইপারএজেন্ট ধারণার পেছনে এটিই মূল দাবি। একটি স্থির, মানুষের লেখা shell-এর ভেতরে কেবল উন্নতি করার বদলে, এজেন্ট সেই shell-টিকেও অপ্টিমাইজ করতে পারে। উৎস প্রতিবেদনের ভাষায়, এটি কাজেও ভালো হয় এবং “প্রথমে কীভাবে উন্নতি করতে হয়, তা বুঝতেও” ভালো হয়।

এটি গুরুত্বপূর্ণ, কারণ স্ব-উন্নয়ন দীর্ঘদিন ধরে একটি সীমায় এসে থেমেছে। একটি সিস্টেম এক ক্ষেত্রে খুব সক্ষম হতে পারে, তবু এমন হাতে-গড়া ব্যবস্থার ওপর নির্ভর করতে পারে, যেগুলো নিজেরা বিকশিত হয় না। হাইপারএজেন্ট সেই bottleneck দূর করার চেষ্টা, meta-level-কেও সম্পাদনাযোগ্য করে।

আগের স্ব-উন্নয়ন কেন ভালোভাবে সাধারণীকৃত হয়নি

প্রদত্ত উৎস পাঠ অনুযায়ী, মূল Darwin Gödel Machine coding tasks-এ সম্ভাবনা দেখিয়েছিল, কারণ একজন ভালো programmer হওয়া এবং আরও ভালো self-modification লেখা—এই দুইয়ের মধ্যে একটি স্বাভাবিক সম্পর্ক আছে। coding-এ, এজেন্টের কাজের দক্ষতা এবং নিজের implementation বদলানোর দক্ষতা ঘনিষ্ঠভাবে যুক্ত।

coding-এর বাইরে সেই সম্পর্ক দুর্বল হয়ে যায়। বৈজ্ঞানিক প্রবন্ধ মূল্যায়নে ভালো হয়ে ওঠা একটি এজেন্ট স্বয়ংক্রিয়ভাবে নিজের code পুনর্লিখনে ভালো হয়ে যায় না। গবেষকদের মতে, এটাই কারণ যে মূল DGM programming-এর বাইরে manual adjustment ছাড়া খারাপভাবে কাজ করেছিল। প্রতিবেদনে বলা হয়েছে, humans হস্তক্ষেপ না করলে সিস্টেম non-programming tasks-এ প্রায় শূন্য performance পেয়েছিল।

হাইপারএজেন্টগুলো সেই failure mode মোকাবিলার জন্য তৈরি। improvement mechanism-টিকেই অপ্টিমাইজ করার সুযোগ দিয়ে, গবেষকরা DGM-এর archive-based evolutionary structure বজায় রাখতে চান, একই সঙ্গে meta-agent-কে স্থায়ীভাবে fixed হওয়া থেকে মুক্ত করতে চান।

নতুন সিস্টেম: DGM-H

দলটি নতুন এই পদ্ধতিকে DGM-Hyperagents, বা DGM-H, নামে অভিহিত করেছে। archive পদ্ধতির একটি key part হিসেবে রয়ে গেছে। সিস্টেম variants তৈরি করে, সেগুলো মূল্যায়ন করে, এবং সফল সংস্করণগুলোকে ভবিষ্যৎ পরিবর্তনের stepping stone হিসেবে ব্যবহার করে। যা বদলায় তা হলো, “meta” component আর locked নেই। architecture এমনভাবে তৈরি করা হয়েছে যাতে এজেন্টের ভালো version তৈরি করার প্রক্রিয়াটিও একই cycle-এর অংশ হিসেবে পরিবর্তন করা যায়।

এটি একটি বড় conceptual shift। অনেক এআই সিস্টেমে স্ব-উন্নয়ন কঠোরভাবে object-level task solver এবং meta-level controller বা training logic-এর মধ্যে বিভাজিত থাকে। DGM-H সেই বিভাজন কমায়, দুটিকেই editable code-এর মধ্যে রাখে। ফলাফল, অন্তত নীতিগতভাবে, এমন একটি সিস্টেম যার unfamiliar domains-এ মানিয়ে নেওয়ার সম্ভাবনা বেশি, যেখানে উন্নতির পথটি task competence-এর সঙ্গে আগে থেকেই পুরোপুরি মেলে না।

চারটি task area-তে reported results

candidate text-এ বলা হয়েছে, গবেষকেরা চারটি task area-তে DGM-H পরীক্ষা করে বড় gains রিপোর্ট করেছেন। এই excerpt পূর্ণ numerical results দেয় না, তাই সেগুলো বাড়িয়ে বলা উচিত নয়। যা বলা যায় তা হলো, broader applicability-এর দিক থেকে গবেষক দল সিস্টেমটিকে মূল সেটআপের তুলনায় যথেষ্ট শক্তিশালী হিসেবে উপস্থাপন করছে।

এই দাবি গুরুত্বপূর্ণ, কারণ generality স্ব-উন্নয়নশীল এআই-এর সবচেয়ে কঠিন লক্ষ্যগুলোর একটি। অনেক সিস্টেম সংকীর্ণ পরিস্থিতিতে ভালো কাজ করে, কিন্তু হাতে-তৈরি অনুমানের ওপর নির্ভর করে, যা পরিবেশ বদলালে ভেঙে যায়। যদি হাইপারএজেন্ট বিভিন্ন task type-এ অর্থপূর্ণভাবে উন্নতি করতে পারে, তবে তা আরও নমনীয় autonomous systems-এর দিকে অগ্রগতি হবে।

একই সঙ্গে, প্রদত্ত উপাদান এটিকে গবেষণা হিসেবে বর্ণনা করে, production capability হিসেবে নয়। তাই এটিকে experimental step হিসেবে বোঝা উচিত, ব্যাপকভাবে self-accelerating এআই ইতিমধ্যেই scale-এ চালু আছে এমন প্রমাণ হিসেবে নয়।

এই গবেষণা কেন গুরুত্বপূর্ণ

হাইপারএজেন্টের বৃহত্তর তাৎপর্য হলো তারা frontier-কে কোথায় সরিয়ে নিচ্ছে। এআই গবেষকেরা দীর্ঘদিন ধরে এমন সিস্টেম নিয়ে কাজ করছেন, যা খুঁজে, অপ্টিমাইজ করে বা কোড লিখে performance উন্নত করতে পারে। আরও কঠিন সমস্যা হলো এমন সিস্টেম বানানো, যা revision-এর logic-টাকেই revise করতে পারে, এবং তা যেন অকার্যকর পরিবর্তনে ভেঙে না পড়ে। DGM-H-কে এই recursive loop-টিকে আরও সক্ষম এবং আরও বিস্তৃতভাবে উপযোগী করার একটি প্রচেষ্টা হিসেবে দেখানো হয়েছে।

এই পদ্ধতি যদি robust প্রমাণিত হয়, তবে task skill এবং self-modification skill যেখানে স্বাভাবিকভাবে মেলে না, এমন ক্ষেত্রে এটি গুরুত্বপূর্ণ হতে পারে। scientific analysis, robotics, এবং অন্যান্য complex area উৎস লেখায় উল্লেখিত উদাহরণ। এমন ক্ষেত্রে, একটি সিস্টেমের মূল্য শুধু কাজ করার ক্ষমতায় নয়, বরং কীভাবে শেখে এবং কীভাবে adapt করে, সেটি redesign করার ক্ষমতাতেও নির্ভর করতে পারে।

এই সম্ভাবনাই ব্যাখ্যা করে, কেন কাজটি প্রযুক্তিগত বিবরণের বাইরেও দৃষ্টি আকর্ষণ করে। নিজের optimizer-কে optimize করতে পারে এমন একটি সিস্টেম, এআই capability growth, safety, evaluation, এবং control-এর মৌলিক প্রশ্নগুলোকে স্পর্শ করে। প্রদত্ত প্রতিবেদনে performance gains-এর ওপর জোর দেওয়া হয়েছে, কিন্তু একই architectural idea oversight এবং alignment নিয়ে উদ্বিগ্ন গবেষকদের কাছ থেকেও scrutiny পাবে।

একটি ধাপে ধাপে, কিন্তু উল্লেখযোগ্য পদক্ষেপ

উপলব্ধ উপাদানের ভিত্তিতে সবচেয়ে নিরাপদ উপসংহার হলো, মেটা এবং তার সহযোগীরা স্ব-উন্নয়নের একটি আরও নমনীয় মডেল এগিয়ে নিচ্ছেন, runaway recursive intelligence-এর সমাধান করা পথ দেখাচ্ছেন না। এই গবেষণা আগের self-modification approaches-এর একটি নির্দিষ্ট দুর্বলতাকে সমাধান করে এবং একাধিক task area-তে অগ্রগতির দাবি করে।

এটিই একে উল্লেখযোগ্য করে তোলে। স্ব-উন্নয়নশীল এআই প্রায়ই বিমূর্ত বা অনুমানভিত্তিক ভাষায় আলোচনা করা হয়। হাইপারএজেন্ট সেই আলোচনাকে আরও নির্দিষ্ট প্রযুক্তিগত রূপ দেয়: editable meta-mechanisms, archive-based iteration, এবং software engineering-এর বাইরে generalized হওয়ার একটি স্পষ্ট চেষ্টা। এই পদ্ধতি মৌলিক হয়ে উঠবে, নাকি একটি কার্যকর পরীক্ষাই থেকে যাবে, তা এখানে দেওয়া সারাংশের বাইরে ফলাফলের ওপর নির্ভর করবে। কিন্তু একটি research direction হিসেবে, এটি এআই-এর সবচেয়ে গুরুত্বপূর্ণ প্রশ্নগুলোর একটির দিকে স্পষ্টভাবে লক্ষ্য করে: শুধু সিস্টেম উন্নত হতে পারে কি না, তা নয়, বরং improvement-এর প্রক্রিয়াটিকেও তারা উন্নত করতে পারে কি না।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.