নতুন Exploit Benchmark দেখায় AI browser hacking-এ কতদূর যেতে পারে

আরও বিপজ্জনক capability frontier-এর benchmark

কার্নেগি মেলন বিশ্ববিদ্যালয়ের গবেষকেরা একটি নতুন benchmark উন্মোচন করেছেন, যার উদ্দেশ্য হল AI agents গুগলের V8 JavaScript engine-এ বাস্তব vulnerabilities কাজে লাগাতে কতদূর যেতে পারে তা পরীক্ষা করা। The Decoder থেকে দেওয়া উৎসপাঠ অনুযায়ী, offensive security-তে frontier model আচরণের আরও নির্দিষ্ট ছবি মিলছে: কিছু system এখন আর শুধু bug চিহ্নিত করা বা crash ঘটানোর মধ্যে সীমাবদ্ধ নয়, বরং full code execution-এর দিকে এগোচ্ছে।

এই benchmark গুরুত্বপূর্ণ, কারণ এটি outcome-কে সরাসরি pass-fail পরীক্ষায় নামিয়ে আনে না; বরং ধাপে ধাপে performance মাপে। উৎস অনুযায়ী, frameworkটি agents-কে পাঁচটি tier-এ স্কোর করে, যার শেষ ধাপ target system-এ arbitrary code execution। এই কাঠামো autonomous বা semi-autonomous model একটি exploit-development workflow-এ আসলে কী করতে পারে, তার আরও বাস্তবসম্মত চিত্র দেয়।

Claude Mythos এগিয়ে, GPT-5.5 পিছিয়ে

রিপোর্ট করা প্রধান ফলাফল হলো পরীক্ষায় দুটি শীর্ষ system-এর মধ্যে বড় ফারাক। Anthropic-এর Claude Mythos Preview, কখনও কখনও মানব সহায়তায়, ১৬-এর মধ্যে গড়ে ৯.৯০ স্কোর করেছে এবং ৪১টি vulnerability-এর মধ্যে ২১টিতে top tier পেয়েছে। OpenAI-এর GPT-5.5 স্কোর করেছে ৫.৫১ এবং ওই vulnerability-গুলোর মধ্যে মাত্র দুটিতে top tier-এ পৌঁছেছে।

সম্পূর্ণ autonomous mode-এও ব্যবধান বড় ছিল। Mythos ৯.৫৫ পয়েন্ট ধরে রেখেছে, আর GPT-5.5 via Codex পেয়েছে ৪.৩০। উৎস বলছে, পরীক্ষা করা অন্য কোনো model full code execution অর্জন করেনি। এই সংখ্যাগুলো যদি বিস্তৃত scrutiny-তেও টিকে যায়, তাহলে বোঝা যায় offensive cyber tasks-এ model capability-এর শীর্ষভাগ দ্রুত বাকি ক্ষেত্র থেকে আলাদা হয়ে যাচ্ছে, যা অনেক public evaluation দেখায়নি।

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 ঘণ্টার রোবোটিক্স ডেটাসেট ওপেন-সোর্স করল

X Square Robot XRZero-G0 এবং 2,000 ঘণ্টার একটি মাল্টিমোডাল ডেটাসেট প্রকাশ করেছে, যার লক্ষ্য embodied AI সিস্টেমের জন্য বাস্তব-রোবট প্রশিক্ষণ ডেটার প্রয়োজনীয়তা কমানো।

Read article

খরচ ব্যাখ্যাকে বদলে দেয়

এই benchmark কোনো সহজ বিজয়ী দেখায় না। The Decoder-এর উৎসপাঠ জোর দিয়ে বলছে, Mythos-এর performance এসেছে মোটা খরচে। একটি পূর্ণ Mythos run-এ ১২২ episodes জুড়ে নাকি প্রায় $36,428 খরচ হয়েছে, আর GPT-5.5 ১২৩ episodes চালিয়েছে প্রায় $3,075-এ। অর্থাৎ প্রায় বারো গুণ পার্থক্য।

এটি গুরুত্বপূর্ণ, কারণ খরচের প্রেক্ষাপট ছাড়া capability দেখা বিভ্রান্তিকর হতে পারে। একটি model যদি অনেক ভালো কাজ করে কিন্তু তার জন্য প্রচুর ব্যয় লাগে, তাহলে তা সবসময় বেশি গুরুত্বপূর্ণ গল্প নাও হতে পারে, বিশেষ করে যদি সস্তা প্রতিদ্বন্দ্বী বেশি compute বা দীর্ঘ runtime দিয়ে ব্যবধান কমাতে পারে। নিবন্ধটি ঠিক এই সম্ভাবনার কথাই বলছে, এবং ইঙ্গিত দিচ্ছে OpenAI বেশি compute বরাদ্দ করে ফারাক কমাতে পারে।

V8 কেন গুরুত্বপূর্ণ লক্ষ্য

V8-এর ওপর ফোকাস stakes বাড়িয়ে দেয়। উৎসে উল্লেখ করা হয়েছে, V8 Chrome, Edge, Node.js, এবং Cloudflare Workers-কে শক্তি দেয়, ফলে এটি আধুনিক ইন্টারনেটের সবচেয়ে গুরুত্বপূর্ণ software engines-গুলোর একটি। তাই বাস্তব V8 vulnerabilities-ভিত্তিক benchmark toy environment বা puzzle-style challenge-এর চেয়ে বাস্তব নিরাপত্তা প্রভাব সম্পর্কে অনেক বেশি বলে।

এই কারণেই tiered design উল্লেখযোগ্য। এটি একটি সমস্যা খুঁজে পাওয়া এবং সেটিকে weaponize করার পার্থক্য দেখায়। security কাজের ক্ষেত্রে এই পার্থক্যই সবকিছু। একটি agent যদি bug discovery থেকে সফল exploitation পর্যন্ত ধাপগুলো reasoning করে এগোতে পারে, তাহলে সে শুধুমাত্র সন্দেহজনক code pattern দেখাতে পারা agent-এর চেয়ে একেবারেই আলাদা risk category-তে কাজ করছে।

Our new community investments in Virginia support local jobs and expand energy affordability.

গুগল ভার্জিনিয়ায় বিনিয়োগ করছে: ১.৫ কোটি ডলারের জ্বালানি তহবিল ও ২,৭৪১টি শিক্ষানবিশ সুযোগ

স্থানীয় চাকরি ও জ্বালানি সাশ্রয় বাড়াতে গুগল ভার্জিনিয়ায় ১.৫ কোটি ডলারের Energy Impact Fund এবং ২,৭৪১টি বৈদ্যুতিক শিক্ষানবিশ সুযোগে সমর্থন ঘোষণা করেছে.

Read article

মানব-স্তরের তুলনায় সতর্কতা দরকার

উৎসপাঠ বলছে, ExploitBench-এর সহ-লেখক Seunghyun Lee, যিনি ২০টিরও বেশি reported browser vulnerabilities সহ একজন অভিজ্ঞ security researcher, ফলাফল পর্যালোচনা করে Mythos-কে একজন সক্ষম human browser security researcher-এর সমতুল্য বলে মনে করেছেন। এটি একটি চমকপ্রদ দাবি, তবে সতর্কতার সঙ্গে পড়া উচিত। Benchmark বাস্তব capability তুলে ধরতে পারে, কিন্তু reliability, reproducibility, এবং structured evaluation environment-এর বাইরে model কীভাবে কাজ করে, সেই প্রশ্নগুলো খোলা থেকেই যায়।

তবু দিকনির্দেশনা উপেক্ষা করা কঠিন। এই benchmark ইঙ্গিত দিচ্ছে যে অন্তত কিছু frontier AI system একটি বড় software engine-এ end-to-end exploit development-এর কাছাকাছি পৌঁছে যাচ্ছে। এখন আলোচনার কেন্দ্রবিন্দু বেশি করে degree, খরচ, এবং operating constraints, trajectory আছে কি না, সে প্রশ্ন নয়।

নীতিনির্ধারক, platform operator, এবং labs-এর জন্য এটি আলোচনার ধরন বদলে দেয়। সবচেয়ে গুরুত্বপূর্ণ প্রশ্ন এখন আর model offensive cyber work-এ সাহায্য করতে পারে কি না, বরং সেই সাহায্য কত দ্রুত সস্তা, আরও autonomous, এবং আরও ব্যাপকভাবে উপলভ্য হয়।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com

নতুন exploit benchmark দেখায় frontier AI মডেলগুলো offensive security-তে আরও গভীরে যাচ্ছে