আরও বিপজ্জনক capability frontier-এর benchmark

কার্নেগি মেলন বিশ্ববিদ্যালয়ের গবেষকেরা একটি নতুন benchmark উন্মোচন করেছেন, যার উদ্দেশ্য হল AI agents গুগলের V8 JavaScript engine-এ বাস্তব vulnerabilities কাজে লাগাতে কতদূর যেতে পারে তা পরীক্ষা করা। The Decoder থেকে দেওয়া উৎসপাঠ অনুযায়ী, offensive security-তে frontier model আচরণের আরও নির্দিষ্ট ছবি মিলছে: কিছু system এখন আর শুধু bug চিহ্নিত করা বা crash ঘটানোর মধ্যে সীমাবদ্ধ নয়, বরং full code execution-এর দিকে এগোচ্ছে।

এই benchmark গুরুত্বপূর্ণ, কারণ এটি outcome-কে সরাসরি pass-fail পরীক্ষায় নামিয়ে আনে না; বরং ধাপে ধাপে performance মাপে। উৎস অনুযায়ী, frameworkটি agents-কে পাঁচটি tier-এ স্কোর করে, যার শেষ ধাপ target system-এ arbitrary code execution। এই কাঠামো autonomous বা semi-autonomous model একটি exploit-development workflow-এ আসলে কী করতে পারে, তার আরও বাস্তবসম্মত চিত্র দেয়।

Claude Mythos এগিয়ে, GPT-5.5 পিছিয়ে

রিপোর্ট করা প্রধান ফলাফল হলো পরীক্ষায় দুটি শীর্ষ system-এর মধ্যে বড় ফারাক। Anthropic-এর Claude Mythos Preview, কখনও কখনও মানব সহায়তায়, ১৬-এর মধ্যে গড়ে ৯.৯০ স্কোর করেছে এবং ৪১টি vulnerability-এর মধ্যে ২১টিতে top tier পেয়েছে। OpenAI-এর GPT-5.5 স্কোর করেছে ৫.৫১ এবং ওই vulnerability-গুলোর মধ্যে মাত্র দুটিতে top tier-এ পৌঁছেছে।

সম্পূর্ণ autonomous mode-এও ব্যবধান বড় ছিল। Mythos ৯.৫৫ পয়েন্ট ধরে রেখেছে, আর GPT-5.5 via Codex পেয়েছে ৪.৩০। উৎস বলছে, পরীক্ষা করা অন্য কোনো model full code execution অর্জন করেনি। এই সংখ্যাগুলো যদি বিস্তৃত scrutiny-তেও টিকে যায়, তাহলে বোঝা যায় offensive cyber tasks-এ model capability-এর শীর্ষভাগ দ্রুত বাকি ক্ষেত্র থেকে আলাদা হয়ে যাচ্ছে, যা অনেক public evaluation দেখায়নি।

খরচ ব্যাখ্যাকে বদলে দেয়

এই benchmark কোনো সহজ বিজয়ী দেখায় না। The Decoder-এর উৎসপাঠ জোর দিয়ে বলছে, Mythos-এর performance এসেছে মোটা খরচে। একটি পূর্ণ Mythos run-এ ১২২ episodes জুড়ে নাকি প্রায় $36,428 খরচ হয়েছে, আর GPT-5.5 ১২৩ episodes চালিয়েছে প্রায় $3,075-এ। অর্থাৎ প্রায় বারো গুণ পার্থক্য।

এটি গুরুত্বপূর্ণ, কারণ খরচের প্রেক্ষাপট ছাড়া capability দেখা বিভ্রান্তিকর হতে পারে। একটি model যদি অনেক ভালো কাজ করে কিন্তু তার জন্য প্রচুর ব্যয় লাগে, তাহলে তা সবসময় বেশি গুরুত্বপূর্ণ গল্প নাও হতে পারে, বিশেষ করে যদি সস্তা প্রতিদ্বন্দ্বী বেশি compute বা দীর্ঘ runtime দিয়ে ব্যবধান কমাতে পারে। নিবন্ধটি ঠিক এই সম্ভাবনার কথাই বলছে, এবং ইঙ্গিত দিচ্ছে OpenAI বেশি compute বরাদ্দ করে ফারাক কমাতে পারে।

V8 কেন গুরুত্বপূর্ণ লক্ষ্য

V8-এর ওপর ফোকাস stakes বাড়িয়ে দেয়। উৎসে উল্লেখ করা হয়েছে, V8 Chrome, Edge, Node.js, এবং Cloudflare Workers-কে শক্তি দেয়, ফলে এটি আধুনিক ইন্টারনেটের সবচেয়ে গুরুত্বপূর্ণ software engines-গুলোর একটি। তাই বাস্তব V8 vulnerabilities-ভিত্তিক benchmark toy environment বা puzzle-style challenge-এর চেয়ে বাস্তব নিরাপত্তা প্রভাব সম্পর্কে অনেক বেশি বলে।

এই কারণেই tiered design উল্লেখযোগ্য। এটি একটি সমস্যা খুঁজে পাওয়া এবং সেটিকে weaponize করার পার্থক্য দেখায়। security কাজের ক্ষেত্রে এই পার্থক্যই সবকিছু। একটি agent যদি bug discovery থেকে সফল exploitation পর্যন্ত ধাপগুলো reasoning করে এগোতে পারে, তাহলে সে শুধুমাত্র সন্দেহজনক code pattern দেখাতে পারা agent-এর চেয়ে একেবারেই আলাদা risk category-তে কাজ করছে।

মানব-স্তরের তুলনায় সতর্কতা দরকার

উৎসপাঠ বলছে, ExploitBench-এর সহ-লেখক Seunghyun Lee, যিনি ২০টিরও বেশি reported browser vulnerabilities সহ একজন অভিজ্ঞ security researcher, ফলাফল পর্যালোচনা করে Mythos-কে একজন সক্ষম human browser security researcher-এর সমতুল্য বলে মনে করেছেন। এটি একটি চমকপ্রদ দাবি, তবে সতর্কতার সঙ্গে পড়া উচিত। Benchmark বাস্তব capability তুলে ধরতে পারে, কিন্তু reliability, reproducibility, এবং structured evaluation environment-এর বাইরে model কীভাবে কাজ করে, সেই প্রশ্নগুলো খোলা থেকেই যায়।

তবু দিকনির্দেশনা উপেক্ষা করা কঠিন। এই benchmark ইঙ্গিত দিচ্ছে যে অন্তত কিছু frontier AI system একটি বড় software engine-এ end-to-end exploit development-এর কাছাকাছি পৌঁছে যাচ্ছে। এখন আলোচনার কেন্দ্রবিন্দু বেশি করে degree, খরচ, এবং operating constraints, trajectory আছে কি না, সে প্রশ্ন নয়।

নীতিনির্ধারক, platform operator, এবং labs-এর জন্য এটি আলোচনার ধরন বদলে দেয়। সবচেয়ে গুরুত্বপূর্ণ প্রশ্ন এখন আর model offensive cyber work-এ সাহায্য করতে পারে কি না, বরং সেই সাহায্য কত দ্রুত সস্তা, আরও autonomous, এবং আরও ব্যাপকভাবে উপলভ্য হয়।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com