அதிக ஆபத்தான திறன் எல்லையை அளவிடும் benchmark

Carnegie Mellon University ஆராய்ச்சியாளர்கள், Google-இன் V8 JavaScript engine-இல் உள்ள உண்மையான vulnerabilities-ஐ பயன்படுத்த AI agents எவ்வளவு தூரம் செல்ல முடியும் என்பதை சோதிக்க வடிவமைக்கப்பட்ட ஒரு புதிய benchmark-ஐ அறிமுகப்படுத்தியுள்ளனர். The Decoder-ல் வழங்கப்பட்ட மூல உரையின் படி, offensive security-யில் frontier model நடத்தை பற்றிய இன்னும் துல்லியமான படம் கிடைக்கிறது: சில systems இப்போது bugs-ஐ கண்டுபிடிப்பது அல்லது crashes-ஐ தூண்டுவது மட்டுமல்லாமல், முழு code execution-ஐ நோக்கியும் நகர்கின்றன.

இந்த benchmark முக்கியமானது, ஏனெனில் இது முடிவுகளை pass-fail சோதனையாக சுருக்காமல், கட்டங்களாக செயல்திறனை அளவிடுகிறது. மூலத்தில் விவரிக்கப்பட்டபடி, இந்த framework agents-ஐ ஐந்து tiers-ஆக மதிப்பிடுகிறது; இறுதியில் target system-இல் arbitrary code execution அடைய வேண்டும். இந்த அமைப்பு, autonomous அல்லது semi-autonomous model ஒரு exploit-development workflow-இல் உண்மையில் என்ன சாதிக்க முடியும் என்பதை இன்னும் யதார்த்தமாக காட்டுகிறது.

Claude Mythos முன்னிலை, GPT-5.5 பின்தங்கி

அறிக்கையிடப்பட்ட முக்கிய முடிவு, சோதனையில் உள்ள இரண்டு முன்னணி systems-களுக்கு இடையே பெரிய இடைவெளி இருப்பதாகும். Anthropic-இன் Claude Mythos Preview, சில மனித உதவியுடன், 16-இல் சராசரி 9.90 மதிப்பெண் பெற்றது மற்றும் 41 vulnerabilities-இல் 21-இல் top tier-ஐ அடைந்தது. OpenAI-இன் GPT-5.5 5.51 மதிப்பெண்களைப் பெற்றது, மேலும் அவற்றில் இரண்டு vulnerabilities-இல் மட்டுமே top tier-ஐ அடைந்தது.

முழுமையான autonomous mode-இலும் இடைவெளி பரந்தே இருந்தது. Mythos 9.55 புள்ளிகளுடன் பெரிதாக சரிவில்லாமல் செயல்பட்டது, ஆனால் GPT-5.5 via Codex 4.30-ஐ மட்டுமே பெற்றது. மற்ற எந்த சோதிக்கப்பட்ட மாதிரியும் full code execution-ஐ அடையவில்லை என்று மூலத்தில் கூறப்படுகிறது. இந்த எண்ணிக்கைகள் பரந்த scrutiny-யிலும் நிலைத்து நிற்குமானால், offensive cyber tasks-இல் model capability-ன் முன்நிலை, பல public evaluations காட்டியதைவிட வேகமாக மற்றவர்களிடமிருந்து பிரிந்து செல்கிறது என்பதைக் குறிக்கின்றன.

செலவு விளக்கத்தை மாற்றுகிறது

இந்த benchmark ஒரு எளிய வெற்றியாளரை மட்டும் முன்வைப்பதில்லை. The Decoder-ன் மூல உரை, Mythos-ன் செயல்திறன் கடுமையான செலவில் கிடைத்ததாக வலியுறுத்துகிறது. 122 episodes முழுவதற்கான Mythos run சுமார் $36,428 செலவாகியதாகக் கூறப்படுகிறது, GPT-5.5 123 episodes-ஐ சுமார் $3,075-க்கு இயக்கியது. அது சுமார் 12 மடங்கு வித்தியாசம்.

இது முக்கியம், ஏனெனில் செலவு சூழலைத் தவிர்த்து திறனைப் பார்ப்பது தவறாக வழிநடத்தலாம். ஒரு model மிகவும் சிறப்பாக செயல்பட்டு, அதற்காக பெரும் செலவு வேண்டுமானால், குறைந்த செலவில் உள்ள போட்டியாளர் கூடுதலான compute அல்லது நீண்ட runtime மூலம் இடைவெளியை குறைக்க முடியும் என்றால், அது எப்போதும் முக்கியமான கதை ஆகாது. GPT-5.5 அதிக compute ஒதுக்குவதன் மூலம் இடைவெளியை குறைக்கக்கூடும் என்று கட்டுரை குறிப்பாக சொல்கிறது.

V8 ஏன் முக்கிய இலக்கு

V8-க்கு கவனம் செலுத்துவது stakes-ஐ உயர்த்துகிறது. V8 Chrome, Edge, Node.js, மற்றும் Cloudflare Workers-ஐ இயக்குகிறது என்று மூலத்தில் குறிப்பிடப்படுகிறது; இதனால் அது நவீன இணையத்தின் மிக முக்கியமான software engines-இல் ஒன்றாகிறது. ஆகவே, உண்மையான V8 vulnerabilities-க்கு இணைக்கப்பட்ட benchmark, toy environment அல்லது puzzle-style challenge-ஐ விட நடைமுறை பாதுகாப்பு விளைவுகள் பற்றி அதிகம் சொல்கிறது.

இதனாலேயே tiered design குறிப்பிடத்தக்கது. இது ஒரு பிரச்சினையைக் கண்டுபிடிப்பதற்கும் அதை ஆயுதமாக்குவதற்கும் உள்ள வேறுபாட்டைக் காட்டுகிறது. பாதுகாப்பு பணியில் அந்த வேறுபாடே அனைத்தும். bug discovery-யிலிருந்து வெற்றிகரமான exploitation வரை காரணமுடன்கட்டங்களைச் செல்லக்கூடிய agent, வெறும் சந்தேகமான code patterns-ஐ சுட்டிக்காட்டும் agent-ஐ விட முற்றிலும் வேறு risk category-யில் செயல்படுகிறது.

மனித-மட்டம் ஒப்பீடுகளில் எச்சரிக்கை தேவை

மூல உரையின் படி, 20-க்கும் மேற்பட்ட reported browser vulnerabilities கொண்ட அனுபவம் வாய்ந்த security researcher ஆன ExploitBench இணை எழுத்தாளர் Seunghyun Lee முடிவுகளை மதிப்பாய்வு செய்து, Mythos-ஐ திறமையான human browser security researcher-க்கு சமமானதாக மதிப்பிட்டார். இது கவனம் ஈர்க்கும் கூற்று, ஆனால் கவனமாகப் படிக்கப்பட வேண்டும். Benchmarks உண்மையான திறனை வெளிப்படுத்த முடியும், என்றாலும் reliability, reproducibility, மற்றும் அமைக்கப்பட்ட மதிப்பீட்டு சூழலுக்கு வெளியே மாதிரிகள் எவ்வாறு செயல்படுகின்றன என்பது போன்ற கேள்விகள் திறந்தவையாகவே இருக்கலாம்.

எனினும், திசையை புறக்கணிக்க முடியாது. இந்த benchmark, குறைந்தது சில frontier AI systems, ஒரு முக்கிய software engine-இல் end-to-end exploit development-க்கு அருகே சென்று கொண்டிருக்கின்றன என்று சுட்டுகிறது. இப்போது விவாதம் பெரும்பாலும் degree, cost, மற்றும் operating constraints பற்றி தான்; trajectory இருக்கிறதா என்ற கேள்வி பற்றி அல்ல.

கொள்கை நிர்ணயாளர்கள், platform operators, மற்றும் labs-க்கு இது உரையாடலை மாற்றுகிறது. முக்கியமான கேள்வி, models offensive cyber work-க்கு உதவ முடியுமா என்பதல்ல, அந்த உதவி எவ்வளவு விரைவில் மலிவாக, மேலும் autonomous-ஆக, மேலும் பரவலாகக் கிடைக்குமா என்பதே.

இந்தக் கட்டுரை The Decoder இன் செய்தியினை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com