இங்கிலாந்து AI சைபர்சுரக்கச் சோதனைகளில் GPT-5.5, Mythos Preview-க்கு இணை

புதிய பெஞ்ச்மார்க் முடிவுகள் AI பாதுகாப்பு கதைகளுக்கும் அளக்கப்பட்ட செயல்திறனுக்கும் இடையிலான தூரத்தை குறைக்கின்றன

இங்கிலாந்தின் AI Security Institute நடத்திய புதிய சைபர்சுரக்கச் சோதனைகள், முன்னணி AI குறித்து சமீபத்தில் அதிகம் பேசப்பட்ட ஒரு கதையை சிக்கலாக்குகின்றன: Anthropic-இன் Mythos Preview என்பது தனித்துவமான அளவுக்கு உயர்ந்த சைபர் அச்சுறுத்தலைக் குறிக்கிறது என்ற கருத்து. புதிய முடிவுகளின்படி, OpenAI-யின் GPT-5.5 நிறுவனத்தின் சைபர் மதிப்பீடுகளில் ஏறத்தாழ அதே செயல்திறன் நிலையை எட்டியது; இதனால் Mythos என்பது ஒரே பெரிய தாவல் அல்ல, மாறாக பரவலான மாதிரி முன்னேற்றத்தின் ஒரு அறிகுறி எனத் தெரிகிறது.

இதுதான் Ars Technica, AISI கண்டறிந்தவற்றின் அடிப்படையில் வெளியிட்ட மையக் கருத்து. இது முக்கியமானது, ஏனெனில் Anthropic முன்னதாக Mythos Preview-இன் அபூர்வமான சைபர்சுரக்க ஆபத்தை வலியுறுத்தி, அதன் ஆரம்ப வெளியீட்டை முக்கிய தொழில் பங்குதாரர்களுக்கே கட்டுப்படுத்தியது. புதிய ஒப்பீடு அந்த ஆபத்துகள் கற்பனையானவை என்று சொல்லவில்லை. அது, நீண்டகால சுயாட்சித் திறன், பகுத்தறிவு, மற்றும் கோடிங் மேம்படும் நிலையில், இதே போன்ற திறன்கள் உயர்தர மாதிரிகள் அனைத்திலும் உருவாகலாம் என்பதைச் சொல்கிறது.

சோதனைகள் என்னை அளந்தன

2023 முதல் AISI, ரிவர்ஸ் இன்ஜினீயரிங், வெப் எக்ஸ்ப்ளாய்ட், மற்றும் கிரிப்டோகிராபி உள்ளிட்ட துறைகளில் சைபர்சுரக்கத் திறன்களை சோதிக்க வடிவமைக்கப்பட்ட 95 Capture the Flag சவால்களுக்குள் முன்னணி AI அமைப்புகளைச் சோதித்து வருகிறது. இவை மாடல் திறனைப் பற்றிய மங்கலான உணர்வுகள் அல்ல. இவை, தெளிவான தாக்குதல்-பாணி சைபர் பணிகளில் அமைப்புகள் எவ்வளவு தூரம் செல்ல முடியும் என்பதை வெளிக்காட்டும் பணிவழிச் மதிப்பீடுகள்.

மிக உயர்ந்த “Expert” பணிகளில் GPT-5.5 சராசரியாக 71.4 சதவீதம் வெற்றி பெற்றது; இது Mythos Preview-இன் 68.6 சதவீதத்தை விட சற்று அதிகம், மேலும் பிழை வரம்புக்குள் இருந்தது. அந்தக் கட்டமைப்பு முக்கியமானது. இந்த முடிவு தீர்க்கமான வெற்றியாளரை நிர்ணயிக்கவில்லை. ஒரு மாடல் மட்டும் புதிய ஆபத்து வகைக்குள் நுழைந்துவிட்டது என்ற எண்ணத்தைக் கேள்விக்குள்ளாக்குவதற்கு போதுமான உயரத்தில் சமநிலையை அது காட்டுகிறது.

EU, Googleக்கு €890 million DMA அபராதம் விதித்தது

Google Search மற்றும் Play Store தொடர்பான இரண்டு Digital Markets Act மீறல்களுக்கு Alphabetக்கு ஐரோப்பிய ஆணையம் அபராதம் விதித்து, 60 நாட்களில் மாற்றங்களை உத்தரவிட்டது.

Read article

அதிகரித்துப் பண்பேற்றம் பெறும் செயல்திறன்

அறிக்கையில் மிகவும் கவனம் ஈர்க்கும் விவரங்களில் ஒன்று, Rust binary-யை decode செய்ய ஒரு disassembler உருவாக்க வேண்டிய கடின பணியைச் சுற்றியது. மனித உதவி இல்லாமல் GPT-5.5 அந்த சவாலை 10 நிமிடம் 22 விநாடிகளில் தீர்த்ததாக AISI கூறியது; API செலவு $1.73 மட்டுமே. இது ஒரு சுருக்கமான தரவு புள்ளி என்றாலும், அது நிறைய விஷயங்களைச் சொல்கிறது: வேகம், சுயாட்சி, மற்றும் குறைந்த marginal cost ஆகியவை அனைத்தும் கவனமாகப் பார்க்க வேண்டிய திசையில் நகர்கின்றன.

“The Last Ones” என்ற 32-படி போலி தரவு-மீட்டெடுப்பு தாக்குதலிலும் நிறுவனம் மாடல்களை மதிப்பீடு செய்தது. GPT-5.5 10 முயற்சிகளில் 3 முறை வெற்றி பெற்றது; Mythos Preview 10 இல் 2 முறை மட்டுமே வென்றது. இதற்கு முன் எந்த மாடலும் அந்த சோதனையில் ஒருபோதும் வெற்றிபெறவில்லை என்று Ars Technica குறிப்பிட்டது. இதனால் இவ்வமைப்புகள் கட்டுப்பாடற்ற நிஜ உலக சூழல்களில் அத்தகைய தாக்குதல்களை நம்பத்தகுந்த வகையில் செயல்படுத்த முடியும் என்று அர்த்தமில்லை. ஆனால், தீவிரமான சைபர் செயல்பாடுகளைப் போல அமைக்கப்பட்ட கட்டமைக்கப்பட்ட சூழல்களில், முன்னணி மாடல்கள் முன் தலைமுறைகள் எட்ட முடியாத முடிவுகளை இப்போது எட்டுகின்றன என்பதைக் காட்டுகிறது.

வரம்புகள் இன்னும் முக்கியம்

இந்தக் கண்டறிதல்கள் கட்டுப்பாடற்ற AI சைபர் ஆதிக்கத்தின் கதை அல்ல. GPT-5.5, மின்நிலைய கட்டுப்பாட்டு மென்பொருளைத் தடை செய்யும் முயற்சியை மாதிரியாக்கும் AISI-யின் கடினமான “Cooling Tower” simulation-இலும் தோல்வியடைந்தது. இதுவரை சோதிக்கப்பட்ட அனைத்து மாடல்களும் அந்த பெஞ்ச்மார்க்கில் தோல்வியடைந்துள்ளன. அந்தத் தீராத வரம்பு முக்கியமானது, ஏனெனில் திறன் வளர்ச்சி உண்மையானதாக இருந்தாலும் அது சீராக இல்லை என்பதை அது காட்டுகிறது. சில தாக்குதல் பணிகளில் மாடல்கள் கணிசமாக வலுப்பெறலாம்; ஆனால் மிகை கூற்றுகளை நியாயப்படுத்தும் முழுத் திறன்களை இன்னும் நிரூபிக்கவில்லை.

வேறொரு விதத்தில் சொன்னால், புதிய முடிவுகள் அலட்சியத்துக்கும் பரபரப்புச் செய்திப்படுத்தலுக்கும் ஒரே நேரத்தில் எதிராகச் செல்கின்றன. மாடல் குடும்பங்கள் முழுவதிலும் சைபர் திறன் வேகமாக முன்னேறுகிறது என்பதை அவை சுட்டிக்காட்டுகின்றன; ஆனால் இன்றைய அமைப்புகள் ஏற்கனவே முக்கியமான கட்டமைப்பு தாக்குதல் simulation-இல் உள்ள ஒவ்வொரு கடின இலக்கையும் தீர்த்துவிட்டன என்ற கருத்தை அவை ஆதரிக்கவில்லை.

ஆபத்தை நிறுவனங்கள் எப்படிப் பேசுகின்றன என்ற விவாதம்

இந்த பெஞ்ச்மார்க் ஒப்பீடு AI தொடர்பாடல் stratgy குறித்த வேறொரு வாதத்தையும் தூண்டுகிறது. சில மாடல்களின் கட்டுப்படுத்தப்பட்ட வெளியீடுகளைச் சுற்றி “fear-based marketing” என தாம் குறிப்பிட்டதை OpenAI CEO சாம் ஆல்ட்மன் விமர்சித்ததை Ars Technica கவனித்தது. AISI-யின் சொந்த விளக்கமும் அதே திசையிலேயே செல்கிறது; Mythos Preview என்பது சாத்தியமாக “ஒரு மாடலுக்கே உரிய breakthrough” அல்ல, மாறாக சுயாட்சி, பகுத்தறிவு, மற்றும் கோடிங்கில் ஏற்பட்ட பொதுவான முன்னேற்றங்களின் துணை விளைவு என்று அது எழுதுகிறது.

இதன் பொருள், மாடல் உருவாக்குநர்கள் சைபர் ஆபத்தைப் பற்றிய எச்சரிக்கைகளை நிறுத்த வேண்டும் என்பதல்ல. உண்மையில், பரந்த நிதர்சனம் இதற்கு எதிராக இருக்கலாம். இதே போன்ற திறன்கள் பல முன்னணி அமைப்புகளில் தோன்றினால், கொள்கை விவாதம் தனித்த மாடல் வெளியீடுகளை அசாதாரண நிகழ்வுகளாகக் கருதுவதை விட்டு, இன்னும் அமைப்புசார்ந்த போக்கை புரிந்துகொள்ளும் திசையில் மாற வேண்டும். அடிப்படை செயல்திறன் வளைவு பகிரப்பட்டதாக இருந்தால், ஆபத்து ஒரு நிறுவனத்தின் preview model-இல் மட்டும் அடங்கியிருக்காது.

இது இப்போது ஏன் முக்கியம்

GPT-5.5 முடிவின் உண்மையான முக்கியத்துவம் பெருமை பேசுவதற்கான உரிமை அல்ல. அது முன்னேறிய சைபர் திறன் முன்னணி மாடல்களிடையே மேலும் பரவலாகப் பகிரப்பட்டு வருகிறது என்பதற்கான சான்று. அது, ஆய்வகங்கள், ஒழுங்குமுறை அமைப்புகள், மற்றும் நிறுவனப் பயனர்கள் மதிப்பீடு, அணுகல் கட்டுப்பாடு, red teaming, மற்றும் சம்பவத் தயார்நிலை குறித்து எப்படிச் சிந்திக்க வேண்டும் என்பதைக் மாற்றுகிறது. இது அனுபவாதார பாதுகாப்பு விவாதங்களுக்கான தரத்தையும் உயர்த்துகிறது. நிறுவனங்கள் ஒரு மாடலின் தனித்துவம் பற்றி வியக்கத்தக்க கூற்றுகளைச் சொல்லலாம்; ஆனால் ஒப்பீட்டு சோதனைகள் அவற்றிற்கு ஒரு சரிபார்ப்பை வழங்குகின்றன.

தற்போது கிடைக்கும் சான்றுகள் குறுகியதானாலும் முக்கியமான முடிவை ஆதரிக்கின்றன. GPT-5.5, AISI-யின் சைபர் மதிப்பீடுகளில் Mythos Preview-க்கு ஏறத்தாழ அதே அளவில் செயல்பட்டது, சில அளவுகளில் அதைவிட சற்றே மேலாக இருந்தது, மேலும் நீடித்த தொழில்நுட்ப பணிகளில் அதிக திறன் பெறும் முன்னணி மாடல்களின் பரந்த வடிவத்துடன் பொருந்தியது. ஹைபும் நிதர்சனமும் இடையிலான இடைவெளி சுருங்கியிருக்கலாம். ஆனால் திறன் வளைவு இன்னும் மேலேறிக்கொண்டே இருப்பதாகத் தெரிகிறது.

இந்தக் கட்டுரை Ars Technica-வின் செய்திப்பதிவை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையை வாசிக்கவும்.

Originally published on arstechnica.com

இங்கிலாந்து சைபர்சுரக்குச் சோதனைகளில் Mythos Preview-ஐ GPT-5.5 சமன் செய்தது, மிகைப்படுத்தப்பட்ட பேசுதலை சவாலாக்கிறது