যুক্তরাজ্যের AI সাইবারসুরক্ষা পরীক্ষায় GPT-5.5, Mythos Preview-এর সমান

নতুন বেঞ্চমার্ক ফলাফল AI নিরাপত্তা-সংক্রান্ত বয়ান ও মাপা পারফরম্যান্সের মধ্যে ব্যবধান কমিয়েছে

যুক্তরাজ্যের AI Security Institute-এর সাম্প্রতিক সাইবারসুরক্ষা পরীক্ষা ফ্রন্টিয়ার AI নিয়ে সাম্প্রতিক সময়ের একটি উচ্চস্বরে প্রচারিত বয়ানকে জটিল করে তুলেছে: Anthropic-এর Mythos Preview নাকি একেবারে অনন্যভাবে উচ্চমাত্রার সাইবার হুমকি। নতুন ফলাফল অনুযায়ী, OpenAI-এর GPT-5.5 ইনস্টিটিউটের সাইবার মূল্যায়নে প্রায় একই স্তরের পারফরম্যান্স দেখিয়েছে, যা ইঙ্গিত করে যে Mythos সম্ভবত একক কোনো লাফ নয়, বরং বৃহত্তর মডেল অগ্রগতির একটি লক্ষণ।

এটাই Ars Technica AISI-এর ফলাফলের ভিত্তিতে প্রধান সিদ্ধান্ত হিসেবে রিপোর্ট করেছে। বিষয়টি গুরুত্বপূর্ণ, কারণ Anthropic আগে Mythos Preview-এর অস্বাভাবিক সাইবারসুরক্ষা ঝুঁকির উপর জোর দিয়েছিল এবং প্রাথমিক রিলিজ কেবল গুরুত্বপূর্ণ শিল্প-সঙ্গীদের জন্য সীমাবদ্ধ রেখেছিল। নতুন তুলনাটি বলে না যে সেই ঝুঁকিগুলো অবাস্তব। বরং বলে যে দীর্ঘমেয়াদি স্বায়ত্তশাসন, যুক্তি, এবং কোডিং উন্নত হওয়ার সঙ্গে সঙ্গে একই ধরনের সক্ষমতা শীর্ষস্থানীয় মডেলগুলোর মধ্যেও দেখা দিতে পারে।

পরীক্ষাগুলো কী মাপল

২০২৩ সাল থেকে AISI 95টি Capture the Flag চ্যালেঞ্জের মাধ্যমে ফ্রন্টিয়ার AI সিস্টেমগুলো পরীক্ষা করছে, যা reverse engineering, web exploitation, এবং cryptography-সহ সাইবারসুরক্ষা সক্ষমতা যাচাইয়ের জন্য তৈরি। এগুলো মডেল সক্ষমতা সম্পর্কে অস্পষ্ট ধারণা নয়। এগুলো task-based evaluation, যার উদ্দেশ্য হলো বাস্তব আক্রমণধর্মী সাইবার কাজে সিস্টেমগুলো কতদূর যেতে পারে তা প্রকাশ করা।

সর্বোচ্চ স্তরের “Expert” কাজে GPT-5.5 গড়ে 71.4 শতাংশ সফল হয়েছে, যা Mythos Preview-এর 68.6 শতাংশের চেয়ে সামান্য বেশি এবং ত্রুটির মার্জিনের মধ্যেই। এই framing গুরুত্বপূর্ণ। ফলাফলটি কোনো নিরঙ্কুশ বিজয়ী নির্ধারণ করে না। এটি এমন একটি স্তরে সমতা প্রতিষ্ঠা করে, যা এই ধারণাকে চ্যালেঞ্জ করার জন্য যথেষ্ট উঁচু যে কেবল একটি মডেলই নতুন ঝুঁকির শ্রেণিতে প্রবেশ করেছে।

EU Google-এর ওপর €890 million DMA জরিমানা আরোপ করল

Google Search এবং Play Store-সংক্রান্ত দুটি Digital Markets Act লঙ্ঘনের জন্য ইউরোপীয় কমিশন Alphabetকে জরিমানা করেছে এবং 60 দিনের মধ্যে পরিবর্তনের নির্দেশ দিয়েছে।

Read article

যে পারফরম্যান্স increasingly operational মনে হচ্ছে

রিপোর্টের সবচেয়ে উল্লেখযোগ্য তথ্যগুলোর একটি ছিল Rust binary decode করার জন্য একটি disassembler তৈরি করতে হওয়া কঠিন কাজটি। AISI জানায়, GPT-5.5 মানুষের সহায়তা ছাড়াই 10 মিনিট 22 সেকেন্ডে কাজটি সমাধান করেছে, আর API খরচ ছিল মাত্র $1.73। এটি ছোট একটি ডেটা পয়েন্ট, কিন্তু এটি অনেক কিছু বোঝায়: গতি, স্বায়ত্তশাসন, আর কম marginal cost তিনটিই এমন দিকে এগোচ্ছে, যেটির দিকে গভীর নজর দেওয়া উচিত।

ইনস্টিটিউট “The Last Ones” নামের 32-ধাপের simulated data-extraction attack-এও মডেলগুলো মূল্যায়ন করে। GPT-5.5 10টির মধ্যে 3 বার সফল হয়, আর Mythos Preview 10টির মধ্যে 2 বার। Ars Technica উল্লেখ করেছে, এর আগে কোনো মডেলই এই পরীক্ষায় একবারও সফল হয়নি। এর মানে এই নয় যে নিয়ন্ত্রণহীন বাস্তব পরিবেশে এই সিস্টেমগুলো এমন আক্রমণ নির্ভরযোগ্যভাবে চালাতে পারে। তবে এটি দেখায় যে গুরুতর সাইবার অপারেশন অনুকরণ করতে তৈরি কাঠামোবদ্ধ পরিবেশে ফ্রন্টিয়ার মডেলগুলো এখন এমন ফল পাচ্ছে, যেখানে আগের প্রজন্ম সম্পূর্ণভাবে ব্যর্থ ছিল।

সীমাবদ্ধতাও এখনও গুরুত্বপূর্ণ

এই ফলাফলগুলো সীমাহীন AI সাইবার আধিপত্যের গল্প নয়। GPT-5.5 এখনও AISI-এর আরও কঠিন “Cooling Tower” simulation-এ ব্যর্থ হয়েছে, যা power-plant control software বাধাগ্রস্ত করার একটি প্রচেষ্টার মডেল। আগে পরীক্ষিত সব মডেলই এই বেঞ্চমার্কে ব্যর্থ হয়েছে। এই unresolved limit গুরুত্বপূর্ণ, কারণ এটি দেখায় সক্ষমতার বৃদ্ধি বাস্তব, কিন্তু অসম। কিছু আক্রমণধর্মী কাজে মডেলগুলো এখন অনেক শক্তিশালী হতে পারে, তবে সবচেয়ে চরম দাবিগুলো সমর্থন করার মতো পূর্ণ সক্ষমতা তারা এখনও দেখাতে পারেনি।

অন্যভাবে বললে, নতুন ফলাফল একসঙ্গে আত্মতুষ্টি ও অতিরঞ্জন, দুটোকেই ঠেকাচ্ছে। এগুলো ইঙ্গিত দিচ্ছে যে মডেল পরিবারজুড়ে সাইবার সক্ষমতা দ্রুত বাড়ছে, কিন্তু এও সমর্থন করে না যে আজকের সিস্টেমগুলো ইতিমধ্যেই critical infrastructure attack simulation-এর প্রতিটি কঠিন লক্ষ্য সমাধান করে ফেলেছে।

ঝুঁকি নিয়ে কোম্পানিগুলো কীভাবে কথা বলে

এই বেঞ্চমার্ক তুলনা AI communications strategy নিয়ে আলাদা একটি বিতর্কও উসকে দিচ্ছে। কিছু মডেলের সীমাবদ্ধ রিলিজকে ঘিরে “fear-based marketing” বলে যেটিকে তিনি আখ্যা দিয়েছেন, তার সমালোচনা OpenAI CEO স্যাম অল্টম্যান করেছেন বলে Ars Technica তুলে ধরেছে। AISI-এর নিজস্ব ব্যাখ্যাও একই দিকে যাচ্ছে; তারা লিখেছে Mythos Preview সম্ভবত “একটি model-specific breakthrough” ছিল না, বরং স্বায়ত্তশাসন, যুক্তি, এবং কোডিংয়ে বৃহত্তর উন্নতির উপজাত।

এর মানে এই নয় যে মডেল নির্মাতাদের সাইবার ঝুঁকি নিয়ে সতর্কতা দেওয়া বন্ধ করা উচিত। বরং বৃহত্তর ইঙ্গিত হতে পারে উল্টোটা। যদি একই ধরনের সক্ষমতা একাধিক ফ্রন্টিয়ার সিস্টেমে দেখা যায়, তাহলে নীতিগত আলোচনাকে আলাদা আলাদা মডেল লঞ্চকে ব্যতিক্রমী ঘটনা হিসেবে দেখা থেকে সরে এসে আরও পদ্ধতিগত প্রবণতা বোঝার দিকে যেতে হবে। অন্তর্নিহিত পারফরম্যান্স কার্ভ যদি ভাগ করা হয়, তাহলে ঝুঁকি এক কোম্পানির preview model-এ সীমাবদ্ধ নয়।

এখন কেন এটি গুরুত্বপূর্ণ

GPT-5.5 ফলাফলের আসল তাৎপর্য bragging rights নয়। এটি প্রমাণ যে উন্নত সাইবার সক্ষমতা শীর্ষস্থানীয় মডেলগুলোর মধ্যে আরও বিস্তৃতভাবে ছড়িয়ে পড়ছে। এতে ল্যাব, নিয়ন্ত্রক সংস্থা, এবং enterprise ব্যবহারকারীরা মূল্যায়ন, access control, red teaming, এবং incident preparedness কীভাবে ভাববে তা বদলাতে হবে। এটি empirical safety আলোচনার মানদণ্ডও উঁচু করে। কোম্পানিগুলো একটি মডেলের স্বাতন্ত্র্য নিয়ে বড় বড় দাবি করতে পারে, কিন্তু comparative testing ক্রমশ সেসব বয়ানের ওপর একটি যাচাই দিচ্ছে।

এখন পর্যন্ত পাওয়া প্রমাণ একটি সংকীর্ণ কিন্তু তাৎপর্যপূর্ণ সিদ্ধান্তকে সমর্থন করে। GPT-5.5, AISI-এর সাইবার মূল্যায়নে Mythos Preview-এর প্রায় একই স্তরে কাজ করেছে, কিছু মাপে সামান্য এগিয়েছে, এবং দীর্ঘস্থায়ী প্রযুক্তিগত কাজে আরও সক্ষম হয়ে ওঠা ফ্রন্টিয়ার মডেলগুলোর সামগ্রিক ধাঁচের সঙ্গে মিলেছে। হাইপ গ্যাপ সম্ভবত সংকুচিত হচ্ছে। তবে সক্ষমতার কার্ভ এখনও ওপরে উঠছে বলেই মনে হচ্ছে।

এই নিবন্ধটি Ars Technica-এর প্রতিবেদনভিত্তিক। মূল নিবন্ধ পড়ুন.

Originally published on arstechnica.com

যুক্তরাজ্যের সাইবারসুরক্ষা পরীক্ষায় Mythos Preview-এর সমান GPT-5.5, হাইপকে চ্যালেঞ্জ করছে