শুধু ভাষা নয়, কোডও AI এজেন্টের মূল ভিত্তি হিসেবে উঠে আসছে

Meta, Stanford, এবং University of Illinois Urbana-Champaign-এর গবেষকদের একটি নতুন রিভিউ পেপার আধুনিক AI এজেন্টগুলো আসলে কীভাবে কাজ করে, সে বিষয়ে সরাসরি যুক্তি তুলে ধরেছে: কোড এখন আর শুধু একটি আউটপুট ফরম্যাট নয়, বরং এমন একটি কেন্দ্রীয় মাধ্যম যার মাধ্যমে এজেন্টরা যুক্তি করে, কাজ করে, এবং সমন্বয় ঘটায়। The Decoder-এর বর্ণনা অনুযায়ী, এই পেপার দৃষ্টি সরিয়ে নিয়ে যায় শুধু language model-এর দিক থেকে নয়, বরং সেই আশপাশের সফ্টওয়্যার সিস্টেমের দিকে, যা একটি stateless মডেলকে একটি operating agent-এ রূপ দেয়।

লেখকেরা সেই আশপাশের স্তরটিকে “হারনেস” বলেন। এতে tools, interfaces, sandboxed execution environments, memory, permission boundaries, testing infrastructure, execution loops, এবং feedback channels অন্তর্ভুক্ত। তাদের বক্তব্য সহজ: এই scaffolding ছাড়া একটি মডেল কেবল response generator-ই থেকে যায়। এর সঙ্গে, মডেল ক্রমান্বয়ে plan করতে, execute করতে, ফলাফল inspect করতে, এবং দীর্ঘ task horizon জুড়ে কাজ চালিয়ে যেতে পারে।

হারনেস কেন গুরুত্বপূর্ণ

রিভিউটি দীর্ঘমেয়াদি agent systems-কে তিনটি অংশের সমন্বয় হিসেবে দেখায়। প্রথমত, পরিকল্পনা ও reasoning-এর মতো মডেলের native capabilities। দ্বিতীয়ত, মডেলের চারপাশে দেওয়া infrastructure। তৃতীয়ত, এজেন্ট কাজ করার সময় যে code লেখে বা ব্যবহার করে, যার মধ্যে scripts, helper tools, tests, workflows, এবং reusable skills রয়েছে। এই framing-এ, আরও সক্ষম এজেন্টের জন্য bottleneck ক্রমশ মডেল একা নয়, বরং software environment-এর reliability এবং transparency হতে পারে।

লেখকদের মতে, code-এর কিছু বৈশিষ্ট্য এটিকে এজেন্ট আচরণের জন্য বিশেষভাবে উপযোগী করে তোলে। এটি executable, অর্থাৎ output-কে এমন operation-এ রূপান্তর করা যায় যা যাচাই করা সম্ভব। এটি traceable, কারণ মধ্যবর্তী ধাপগুলো structured artifacts হিসেবে সংরক্ষণ করা যায়। এবং এটি persistent, ফলে এজেন্টরা বহু ধাপ জুড়ে আবার তুলে নেওয়া যায় এমন আকারে অগ্রগতি সংরক্ষণ করতে পারে।

এই দৃষ্টিভঙ্গি ব্যাখ্যা করে কেন বর্তমান commercial systems-এ model এবং software runtime-এর সীমারেখা ক্রমশ ঝাপসা হয়ে যাচ্ছে। The Decoder উল্লেখ করেছে, Claude Code এবং OpenAI-এর Codex-এর মতো systems ইতিমধ্যেই এই নীতির ওপর কাজ করছে, model responses-কে চূড়ান্ত endpoint না ধরে tool use এবং controlled execution-এর ওপর নির্ভর করছে।

Execution নতুন ঝুঁকি আনে

পেপারটি হারনেসকে কোনও সরল সমাধান হিসেবে উপস্থাপন করে না। লেখকেরা সতর্ক করেছেন যে বর্তমান software tests মিথ্যা আত্মবিশ্বাস তৈরি করতে পারে। অসম্পূর্ণ বা সীমিত test suites, বিশেষ করে যখন এজেন্টরা চলতে চলতে code তৈরি বা পরিবর্তন করছে, তখন failure modes আড়াল করে systems-কে বিশ্বাসযোগ্য দেখাতে পারে।

এই উদ্বেগ গুরুত্বপূর্ণ, কারণ tests এবং execution traces-কে প্রায়ই সাফল্যের objective সংকেত হিসেবে ধরা হয়। রিভিউটি যুক্তি দেয় যে এগুলোর আরও বেশি automation নয়, বরং আরও transparent evaluation mechanisms দরকার। বাস্তবে এর মানে হলো এজেন্টকে কী করতে দেওয়া হয়েছিল, সে আসলে কী করেছে, কী evidence সংগ্রহ করা হয়েছে, এবং কোন ধরনের failure উপেক্ষিত হতে পারে, তা খতিয়ে দেখা।

এর বৃহত্তর তাৎপর্য হলো, AI safety এবং capability এখন engineering discipline-এর সঙ্গে আরও ঘনিষ্ঠভাবে যুক্ত হচ্ছে। Sandboxes, permissions, logging, test design, এবং tool boundaries আর peripheral implementation details নয়। এগুলো system intelligence-এর অংশ, এবং এর risk surface-এরও অংশ।

AI শিল্পের জন্য নতুন framing

এই পুনর্বিন্যাস এমন সময়ে এসেছে যখন agentic systems demo থেকে operational products-এ যাচ্ছে। যদি পেপারের thesis ঠিক হয়, তবে autonomy-র পরবর্তী বড় অগ্রগতি models-কে একা scale করার চেয়ে, তাদের চারপাশের software structures উন্নত করার মাধ্যমে বেশি আসতে পারে। আরও ভালো tool interfaces, শক্তিশালী memory systems, স্পষ্ট permissions, আরও rigorous test environments, এবং আরও faithful audit trails, model size-এ আরেক দফা বাড়তির মতোই গুরুত্বপূর্ণ হতে পারে।

এটি এও ইঙ্গিত করে যে evaluation standards-কে বিকশিত হতে হবে। একটি এজেন্টকে শুধু benchmark score বা single-turn response দিয়ে মাপা সেই infrastructure-এর ভূমিকাকে উপেক্ষা করে, যা ঠিক করে system বাস্তব কাজ নিরাপদে ও নির্ভরযোগ্যভাবে শেষ করতে পারে কি না। executable workflows এবং harness design-এর ওপর পেপারের জোর AI performance-এর আরও systems-level দৃষ্টিভঙ্গির দিকে ইঙ্গিত করে।

এজেন্ট তৈরি করা developers এবং কোম্পানিগুলোর জন্য বার্তাটি ব্যবহারিক। যদি code-ই এজেন্টের চিন্তা ও কাজের অংশ হয়, তাহলে model-এর চারপাশের runtime-এর মান একটি first-order product decision হয়ে যায়। এর মধ্যে আছে কোন tools উন্মুক্ত করা হচ্ছে, outputs কীভাবে verify করা হচ্ছে, memory কীভাবে store করা হচ্ছে, এবং একজন agent-কে কতটা operational freedom দেওয়া হচ্ছে।

রিভিউটি বলে না যে models আর গুরুত্বপূর্ণ নয়। বরং এটি বলে capability model এবং environment-এর পারস্পরিক ক্রিয়া থেকে জন্ম নেয়। সেই অর্থে, harness কোনও accessory নয়। এটি prediction-কে sustained action-এ রূপ দেওয়ার mechanism।

এই নিবন্ধটি The Decoder-এর প্রতিবেদন অবলম্বনে লেখা। মূল নিবন্ধ পড়ুন.

Originally published on the-decoder.com