புதிய பெஞ்ச்மார்க் முடிவுகள் AI பாதுகாப்பு கதைகளுக்கும் அளக்கப்பட்ட செயல்திறனுக்கும் இடையிலான தூரத்தை குறைக்கின்றன

இங்கிலாந்தின் AI Security Institute நடத்திய புதிய சைபர்சுரக்கச் சோதனைகள், முன்னணி AI குறித்து சமீபத்தில் அதிகம் பேசப்பட்ட ஒரு கதையை சிக்கலாக்குகின்றன: Anthropic-இன் Mythos Preview என்பது தனித்துவமான அளவுக்கு உயர்ந்த சைபர் அச்சுறுத்தலைக் குறிக்கிறது என்ற கருத்து. புதிய முடிவுகளின்படி, OpenAI-யின் GPT-5.5 நிறுவனத்தின் சைபர் மதிப்பீடுகளில் ஏறத்தாழ அதே செயல்திறன் நிலையை எட்டியது; இதனால் Mythos என்பது ஒரே பெரிய தாவல் அல்ல, மாறாக பரவலான மாதிரி முன்னேற்றத்தின் ஒரு அறிகுறி எனத் தெரிகிறது.

இதுதான் Ars Technica, AISI கண்டறிந்தவற்றின் அடிப்படையில் வெளியிட்ட மையக் கருத்து. இது முக்கியமானது, ஏனெனில் Anthropic முன்னதாக Mythos Preview-இன் அபூர்வமான சைபர்சுரக்க ஆபத்தை வலியுறுத்தி, அதன் ஆரம்ப வெளியீட்டை முக்கிய தொழில் பங்குதாரர்களுக்கே கட்டுப்படுத்தியது. புதிய ஒப்பீடு அந்த ஆபத்துகள் கற்பனையானவை என்று சொல்லவில்லை. அது, நீண்டகால சுயாட்சித் திறன், பகுத்தறிவு, மற்றும் கோடிங் மேம்படும் நிலையில், இதே போன்ற திறன்கள் உயர்தர மாதிரிகள் அனைத்திலும் உருவாகலாம் என்பதைச் சொல்கிறது.

சோதனைகள் என்னை அளந்தன

2023 முதல் AISI, ரிவர்ஸ் இன்ஜினீயரிங், வெப் எக்ஸ்ப்ளாய்ட், மற்றும் கிரிப்டோகிராபி உள்ளிட்ட துறைகளில் சைபர்சுரக்கத் திறன்களை சோதிக்க வடிவமைக்கப்பட்ட 95 Capture the Flag சவால்களுக்குள் முன்னணி AI அமைப்புகளைச் சோதித்து வருகிறது. இவை மாடல் திறனைப் பற்றிய மங்கலான உணர்வுகள் அல்ல. இவை, தெளிவான தாக்குதல்-பாணி சைபர் பணிகளில் அமைப்புகள் எவ்வளவு தூரம் செல்ல முடியும் என்பதை வெளிக்காட்டும் பணிவழிச் மதிப்பீடுகள்.

மிக உயர்ந்த “Expert” பணிகளில் GPT-5.5 சராசரியாக 71.4 சதவீதம் வெற்றி பெற்றது; இது Mythos Preview-இன் 68.6 சதவீதத்தை விட சற்று அதிகம், மேலும் பிழை வரம்புக்குள் இருந்தது. அந்தக் கட்டமைப்பு முக்கியமானது. இந்த முடிவு தீர்க்கமான வெற்றியாளரை நிர்ணயிக்கவில்லை. ஒரு மாடல் மட்டும் புதிய ஆபத்து வகைக்குள் நுழைந்துவிட்டது என்ற எண்ணத்தைக் கேள்விக்குள்ளாக்குவதற்கு போதுமான உயரத்தில் சமநிலையை அது காட்டுகிறது.