নতুন বেঞ্চমার্ক ফলাফল AI নিরাপত্তা-সংক্রান্ত বয়ান ও মাপা পারফরম্যান্সের মধ্যে ব্যবধান কমিয়েছে
যুক্তরাজ্যের AI Security Institute-এর সাম্প্রতিক সাইবারসুরক্ষা পরীক্ষা ফ্রন্টিয়ার AI নিয়ে সাম্প্রতিক সময়ের একটি উচ্চস্বরে প্রচারিত বয়ানকে জটিল করে তুলেছে: Anthropic-এর Mythos Preview নাকি একেবারে অনন্যভাবে উচ্চমাত্রার সাইবার হুমকি। নতুন ফলাফল অনুযায়ী, OpenAI-এর GPT-5.5 ইনস্টিটিউটের সাইবার মূল্যায়নে প্রায় একই স্তরের পারফরম্যান্স দেখিয়েছে, যা ইঙ্গিত করে যে Mythos সম্ভবত একক কোনো লাফ নয়, বরং বৃহত্তর মডেল অগ্রগতির একটি লক্ষণ।
এটাই Ars Technica AISI-এর ফলাফলের ভিত্তিতে প্রধান সিদ্ধান্ত হিসেবে রিপোর্ট করেছে। বিষয়টি গুরুত্বপূর্ণ, কারণ Anthropic আগে Mythos Preview-এর অস্বাভাবিক সাইবারসুরক্ষা ঝুঁকির উপর জোর দিয়েছিল এবং প্রাথমিক রিলিজ কেবল গুরুত্বপূর্ণ শিল্প-সঙ্গীদের জন্য সীমাবদ্ধ রেখেছিল। নতুন তুলনাটি বলে না যে সেই ঝুঁকিগুলো অবাস্তব। বরং বলে যে দীর্ঘমেয়াদি স্বায়ত্তশাসন, যুক্তি, এবং কোডিং উন্নত হওয়ার সঙ্গে সঙ্গে একই ধরনের সক্ষমতা শীর্ষস্থানীয় মডেলগুলোর মধ্যেও দেখা দিতে পারে।
পরীক্ষাগুলো কী মাপল
২০২৩ সাল থেকে AISI 95টি Capture the Flag চ্যালেঞ্জের মাধ্যমে ফ্রন্টিয়ার AI সিস্টেমগুলো পরীক্ষা করছে, যা reverse engineering, web exploitation, এবং cryptography-সহ সাইবারসুরক্ষা সক্ষমতা যাচাইয়ের জন্য তৈরি। এগুলো মডেল সক্ষমতা সম্পর্কে অস্পষ্ট ধারণা নয়। এগুলো task-based evaluation, যার উদ্দেশ্য হলো বাস্তব আক্রমণধর্মী সাইবার কাজে সিস্টেমগুলো কতদূর যেতে পারে তা প্রকাশ করা।
সর্বোচ্চ স্তরের “Expert” কাজে GPT-5.5 গড়ে 71.4 শতাংশ সফল হয়েছে, যা Mythos Preview-এর 68.6 শতাংশের চেয়ে সামান্য বেশি এবং ত্রুটির মার্জিনের মধ্যেই। এই framing গুরুত্বপূর্ণ। ফলাফলটি কোনো নিরঙ্কুশ বিজয়ী নির্ধারণ করে না। এটি এমন একটি স্তরে সমতা প্রতিষ্ঠা করে, যা এই ধারণাকে চ্যালেঞ্জ করার জন্য যথেষ্ট উঁচু যে কেবল একটি মডেলই নতুন ঝুঁকির শ্রেণিতে প্রবেশ করেছে।








