नव्या बेंचमार्क निकालांनी AI सुरक्षिततेच्या कथनांमधील आणि मोजलेल्या कामगिरीमधील दरी कमी केली आहे

यूकेच्या AI Security Institute कडून करण्यात आलेल्या ताज्या सायबरसुरक्षा चाचण्या फ्रंटियर AI संदर्भात अलीकडेच मोठ्याने मांडल्या गेलेल्या एका कथानकाला गुंतागुंतीचे बनवत आहेत: Anthropic चे Mythos Preview हे एक अतिशय उंच सायबर धोका दर्शवते, असा विचार. नव्या निकालांनुसार, OpenAI च्या GPT-5.5 ने संस्थेच्या सायबर मूल्यमापनांमध्ये जवळपास तशीच कामगिरी केली, ज्यातून असे सूचित होते की Mythos ही कदाचित एकच मोठी झेप नसून, व्यापक मॉडेल प्रगतीचे लक्षण आहे.

हेच मुख्य निष्कर्ष Ars Technica ने AISI च्या निष्कर्षांवर आधारित दिले. हे महत्त्वाचे आहे कारण Anthropic ने याआधी Mythos Preview च्या असामान्य सायबरसुरक्षा धोक्यावर भर दिला होता आणि सुरुवातीची रिलीज केवळ महत्त्वाच्या उद्योग भागीदारांपुरती मर्यादित ठेवली होती. ही नवी तुलना हे धोके काल्पनिक आहेत असे सांगत नाही. ती एवढे सांगते की दीर्घकालीन स्वायत्तता, तर्कशक्ती, आणि कोडिंग सुधारत असताना अशा क्षमता आघाडीच्या मॉडेल्समध्येही दिसू शकतात.

चाचण्यांनी काय मोजले

2023 पासून AISI फ्रंटियर AI प्रणालींना 95 Capture the Flag आव्हानांमधून तपासत आहे, जी reverse engineering, web exploitation, आणि cryptography यांसारख्या क्षेत्रांतील सायबरसुरक्षा क्षमतांचा शोध घेण्यासाठी तयार केली आहेत. या मॉडेल क्षमतेबाबतच्या धूसर छाप नाहीत. या task-based evaluations आहेत, ज्यांचा उद्देश प्रत्यक्ष आक्रमक-शैलीच्या सायबर कामांमध्ये प्रणाली किती पुढे जाऊ शकतात हे उघड करणे हा आहे.

सर्वोच्च स्तरावरील “Expert” कामांमध्ये GPT-5.5 ने सरासरी 71.4 टक्के यश मिळवले, जे Mythos Preview च्या 68.6 टक्क्यांपेक्षा थोडे जास्त आणि error margin च्या आत होते. हे framing महत्त्वाचे आहे. हा निकाल कोणत्याही निर्णायक विजेत्याची घोषणा करत नाही. तो अशा पातळीवर समानता प्रस्थापित करतो, जी एका मॉडेलनेच नव्या risk category मध्ये प्रवेश केला आहे, या कल्पनेला आव्हान देण्यासाठी पुरेशी आहे.