यूके AI सायबरसुरक्षा चाचण्यांमध्ये GPT-5.5, Mythos Preview इतकाच

नव्या बेंचमार्क निकालांनी AI सुरक्षिततेच्या कथनांमधील आणि मोजलेल्या कामगिरीमधील दरी कमी केली आहे

यूकेच्या AI Security Institute कडून करण्यात आलेल्या ताज्या सायबरसुरक्षा चाचण्या फ्रंटियर AI संदर्भात अलीकडेच मोठ्याने मांडल्या गेलेल्या एका कथानकाला गुंतागुंतीचे बनवत आहेत: Anthropic चे Mythos Preview हे एक अतिशय उंच सायबर धोका दर्शवते, असा विचार. नव्या निकालांनुसार, OpenAI च्या GPT-5.5 ने संस्थेच्या सायबर मूल्यमापनांमध्ये जवळपास तशीच कामगिरी केली, ज्यातून असे सूचित होते की Mythos ही कदाचित एकच मोठी झेप नसून, व्यापक मॉडेल प्रगतीचे लक्षण आहे.

हेच मुख्य निष्कर्ष Ars Technica ने AISI च्या निष्कर्षांवर आधारित दिले. हे महत्त्वाचे आहे कारण Anthropic ने याआधी Mythos Preview च्या असामान्य सायबरसुरक्षा धोक्यावर भर दिला होता आणि सुरुवातीची रिलीज केवळ महत्त्वाच्या उद्योग भागीदारांपुरती मर्यादित ठेवली होती. ही नवी तुलना हे धोके काल्पनिक आहेत असे सांगत नाही. ती एवढे सांगते की दीर्घकालीन स्वायत्तता, तर्कशक्ती, आणि कोडिंग सुधारत असताना अशा क्षमता आघाडीच्या मॉडेल्समध्येही दिसू शकतात.

चाचण्यांनी काय मोजले

2023 पासून AISI फ्रंटियर AI प्रणालींना 95 Capture the Flag आव्हानांमधून तपासत आहे, जी reverse engineering, web exploitation, आणि cryptography यांसारख्या क्षेत्रांतील सायबरसुरक्षा क्षमतांचा शोध घेण्यासाठी तयार केली आहेत. या मॉडेल क्षमतेबाबतच्या धूसर छाप नाहीत. या task-based evaluations आहेत, ज्यांचा उद्देश प्रत्यक्ष आक्रमक-शैलीच्या सायबर कामांमध्ये प्रणाली किती पुढे जाऊ शकतात हे उघड करणे हा आहे.

सर्वोच्च स्तरावरील “Expert” कामांमध्ये GPT-5.5 ने सरासरी 71.4 टक्के यश मिळवले, जे Mythos Preview च्या 68.6 टक्क्यांपेक्षा थोडे जास्त आणि error margin च्या आत होते. हे framing महत्त्वाचे आहे. हा निकाल कोणत्याही निर्णायक विजेत्याची घोषणा करत नाही. तो अशा पातळीवर समानता प्रस्थापित करतो, जी एका मॉडेलनेच नव्या risk category मध्ये प्रवेश केला आहे, या कल्पनेला आव्हान देण्यासाठी पुरेशी आहे.

Two drones, one yellow, one grey, almost identical otherwise.

संशयित DJI फ्रंट कंपन्यांवर मागील तारखेपासून बंदी घालण्याकडे FCC

DJI उत्पादने अमेरिकन बाजारात ठेवण्यासाठी त्यांना लपवले, असे ज्या कंपन्यांबद्दल ते म्हणते, त्यांच्याविरुद्ध नवीन अंमलबजावणी साधन वापरण्याची अमेरिकेची संचार नियामक संस्था तयारी करत आहे.

Read article

अधिक ऑपरेशनल वाटणारी कामगिरी

रिपोर्टिंगमधील सर्वात लक्षवेधी तपशीलांपैकी एक म्हणजे Rust binary decode करण्यासाठी disassembler तयार करण्याच्या कठीण कामाशी संबंधित आहे. AISI ने सांगितले की GPT-5.5 ने मानवी मदत न घेता 10 मिनिटे 22 सेकंदांत हे आव्हान सोडवले, आणि API खर्च फक्त $1.73 आला. हा लहान डेटा बिंदू असला तरी तो खूप काही सांगतो: वेग, स्वायत्तता, आणि कमी marginal cost या तिन्ही गोष्टी अशा दिशेने जात आहेत ज्याकडे बारकाईने लक्ष देणे गरजेचे आहे.

संस्थेने “The Last Ones” या 32-टप्प्यांच्या simulated data-extraction attack वरही मॉडेल्सचे मूल्यमापन केले. GPT-5.5 ने 10 पैकी 3 प्रयत्नांत यश मिळवले, तर Mythos Preview ने 10 पैकी 2 प्रयत्नांत. Ars Technica ने नमूद केले की यापूर्वी कोणतेही मॉडेल त्या चाचणीत एकदाही यशस्वी झाले नव्हते. याचा अर्थ ही प्रणाली अनियंत्रित प्रत्यक्ष जगातील परिस्थितींमध्ये असे हल्ले विश्वसनीयपणे करू शकतात, असा नाही. मात्र, गंभीर सायबर ऑपरेशन्सची नक्कल करण्यासाठी तयार केलेल्या संरचित वातावरणात फ्रंटियर मॉडेल्स आता पूर्वीच्या पिढ्यांना अजिबात साधता न आलेले निकाल मिळवत आहेत, हे मात्र दिसते.

मर्यादा अजूनही महत्त्वाच्या

हे निष्कर्ष अमर्याद AI सायबर प्रभुत्वाची कथा नाहीत. power-plant control software मध्ये व्यत्यय आणण्याच्या प्रयत्नाचे मॉडेल असलेल्या AISI च्या अधिक कठीण “Cooling Tower” simulation मध्ये GPT-5.5 अजूनही अपयशी ठरले. यापूर्वी तपासलेली सर्व मॉडेल्सही या बेंचमार्कमध्ये अपयशी ठरली आहेत. ही अनुत्तरित मर्यादा महत्त्वाची आहे, कारण ती क्षमतावाढ खरी आहे, पण असमान आहे, हे दाखवते. काही प्रकारच्या आक्रमक कामांमध्ये मॉडेल्स आता लक्षणीयरीत्या मजबूत झाले असतील, पण सर्वात टोकाच्या दाव्यांना आधार देणाऱ्या पूर्ण क्षमतांची अजूनही पुष्टी झालेली नाही.

दुसऱ्या शब्दांत सांगायचे तर, नवे निष्कर्ष एकाच वेळी आत्मसंतोष आणि अतिरंजना या दोन्हींना विरोध करतात. ते सूचित करतात की मॉडेल कुटुंबांमध्ये सायबर क्षमता वेगाने पुढे जात आहे, पण आजच्या प्रणालींनी critical infrastructure attack simulation मधील प्रत्येक कठीण लक्ष्य आधीच सोडवले आहे, या कल्पनेला ते पाठिंबा देत नाहीत.

$A fractured image of a person speaking into a microphone.$

30,000 गाण्यांवरील नव्या खटल्यामुळे Sony ने Udioविरुद्धची लढाई तीव्र केली

30,000 हून अधिक गाण्यांचे उल्लंघन केल्याचा आरोप करत Sony Music ने Udioविरुद्ध नवीन खटला दाखल केला आहे, ज्यामुळे जनरेटिव्ह AI संगीताभोवती सुरू असलेल्या सर्वात महत्त्वाच्या कॉपीराइट संघर्षांपैकी एक अधिक तीव्र झाला आहे.

Read article

जोखीमबद्दल कंपन्या कशा बोलतात यावरील वाद

हा बेंचमार्क तुलना AI communication strategy संदर्भातील स्वतंत्र वादालाही चालना देतो. काही मॉडेल्सच्या मर्यादित रिलीजभोवती “fear-based marketing” असे त्यांनी म्हटले त्यावर OpenAI CEO सॅम ऑल्टमन यांनी टीका केल्याचे Ars Technica ने अधोरेखित केले. AISI चे स्वतःचे अर्थ लावणेही त्याच दिशेने जात असल्याचे दिसते; Mythos Preview हे कदाचित “एक model-specific breakthrough” नसून स्वायत्तता, तर्क, आणि कोडिंगमधील अधिक व्यापक सुधारणांचा उपउत्पाद होता, असे ते लिहितात.

याचा अर्थ असा नाही की मॉडेल विकसकांनी सायबर धोक्याबद्दल इशारे देणे थांबवावे. उलट, व्यापक अर्थ याच्या विरुद्ध जाऊ शकतो. जर अशाच क्षमता अनेक फ्रंटियर प्रणालींमध्ये दिसत असतील, तर धोरणात्मक चर्चा स्वतंत्र मॉडेल लाँचेसना अपवादात्मक घटना मानण्यापासून दूर जाऊन अधिक प्रणालीगत प्रवाह समजून घेण्याकडे वळली पाहिजे. मूळ कामगिरी वक्र सामायिक असेल, तर धोका एका कंपनीच्या preview modelपुरता मर्यादित राहत नाही.

हे आता का महत्त्वाचे आहे

GPT-5.5 निकालाचे खरे महत्त्व बढाई मारण्याचे नाही. त्याचे महत्त्व यामध्ये आहे की प्रगत सायबर क्षमता अग्रगण्य मॉडेल्समध्ये अधिक व्यापकपणे पसरत आहे, याचा तो पुरावा आहे. यामुळे labs, regulators, आणि enterprise वापरकर्त्यांनी evaluation, access control, red teaming, आणि incident preparedness याबाबत कसे विचार करायचे हे बदलते. empirical safety चर्चांसाठी मानकही उंचावते. कंपन्या एखाद्या मॉडेलच्या अनन्यतेबद्दल नाट्यमय दावे करू शकतात, पण comparative testing वाढत्या प्रमाणात त्या कथनांची तपासणी करत आहे.

सध्या उपलब्ध पुरावे एक संकुचित पण तरीही महत्त्वाचा निष्कर्ष समर्थित करतात. GPT-5.5 ने AISI च्या सायबर मूल्यमापनांमध्ये Mythos Preview इतकीच कामगिरी केली, काही मोजमापांवर थोडे अधिक केले, आणि दीर्घकालीन तांत्रिक कामांमध्ये अधिक सक्षम होत जाणाऱ्या फ्रंटियर मॉडेल्सच्या व्यापक नमुन्याशी जुळले. हायपमधली दरी कदाचित कमी होत आहे. मात्र क्षमतावक्र अजूनही वर जात आहे असे दिसते.

हा लेख Ars Technica च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

Originally published on arstechnica.com

यूकेच्या सायबरसुरक्षा चाचण्यांमध्ये Mythos Preview इतकाच GPT-5.5, हायपला आव्हान