புதிய Exploit Benchmark, AI browser hacking-இல் எவ்வளவு தூரம் செல்ல முடியும் என்பதை காட்டுகிறது

அதிக ஆபத்தான திறன் எல்லையை அளவிடும் benchmark

Carnegie Mellon University ஆராய்ச்சியாளர்கள், Google-இன் V8 JavaScript engine-இல் உள்ள உண்மையான vulnerabilities-ஐ பயன்படுத்த AI agents எவ்வளவு தூரம் செல்ல முடியும் என்பதை சோதிக்க வடிவமைக்கப்பட்ட ஒரு புதிய benchmark-ஐ அறிமுகப்படுத்தியுள்ளனர். The Decoder-ல் வழங்கப்பட்ட மூல உரையின் படி, offensive security-யில் frontier model நடத்தை பற்றிய இன்னும் துல்லியமான படம் கிடைக்கிறது: சில systems இப்போது bugs-ஐ கண்டுபிடிப்பது அல்லது crashes-ஐ தூண்டுவது மட்டுமல்லாமல், முழு code execution-ஐ நோக்கியும் நகர்கின்றன.

இந்த benchmark முக்கியமானது, ஏனெனில் இது முடிவுகளை pass-fail சோதனையாக சுருக்காமல், கட்டங்களாக செயல்திறனை அளவிடுகிறது. மூலத்தில் விவரிக்கப்பட்டபடி, இந்த framework agents-ஐ ஐந்து tiers-ஆக மதிப்பிடுகிறது; இறுதியில் target system-இல் arbitrary code execution அடைய வேண்டும். இந்த அமைப்பு, autonomous அல்லது semi-autonomous model ஒரு exploit-development workflow-இல் உண்மையில் என்ன சாதிக்க முடியும் என்பதை இன்னும் யதார்த்தமாக காட்டுகிறது.

Claude Mythos முன்னிலை, GPT-5.5 பின்தங்கி

அறிக்கையிடப்பட்ட முக்கிய முடிவு, சோதனையில் உள்ள இரண்டு முன்னணி systems-களுக்கு இடையே பெரிய இடைவெளி இருப்பதாகும். Anthropic-இன் Claude Mythos Preview, சில மனித உதவியுடன், 16-இல் சராசரி 9.90 மதிப்பெண் பெற்றது மற்றும் 41 vulnerabilities-இல் 21-இல் top tier-ஐ அடைந்தது. OpenAI-இன் GPT-5.5 5.51 மதிப்பெண்களைப் பெற்றது, மேலும் அவற்றில் இரண்டு vulnerabilities-இல் மட்டுமே top tier-ஐ அடைந்தது.

முழுமையான autonomous mode-இலும் இடைவெளி பரந்தே இருந்தது. Mythos 9.55 புள்ளிகளுடன் பெரிதாக சரிவில்லாமல் செயல்பட்டது, ஆனால் GPT-5.5 via Codex 4.30-ஐ மட்டுமே பெற்றது. மற்ற எந்த சோதிக்கப்பட்ட மாதிரியும் full code execution-ஐ அடையவில்லை என்று மூலத்தில் கூறப்படுகிறது. இந்த எண்ணிக்கைகள் பரந்த scrutiny-யிலும் நிலைத்து நிற்குமானால், offensive cyber tasks-இல் model capability-ன் முன்நிலை, பல public evaluations காட்டியதைவிட வேகமாக மற்றவர்களிடமிருந்து பிரிந்து செல்கிறது என்பதைக் குறிக்கின்றன.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 மணி நேர ரோபோடிக்ஸ் தரவுத்தொகுப்பை ஓபன்-சோர்ஸ் செய்தது

X Square Robot, embodied AI அமைப்புகளுக்குத் தேவையான உண்மை-ரோபோ பயிற்சி தரவின் அளவைக் குறைப்பதை நோக்கமாகக் கொண்டு XRZero-G0 மற்றும் 2,000 மணி நேர பல்மாதிரி தரவுத்தொகுப்பை வெளியிட்டுள்ளது.

Read article

செலவு விளக்கத்தை மாற்றுகிறது

இந்த benchmark ஒரு எளிய வெற்றியாளரை மட்டும் முன்வைப்பதில்லை. The Decoder-ன் மூல உரை, Mythos-ன் செயல்திறன் கடுமையான செலவில் கிடைத்ததாக வலியுறுத்துகிறது. 122 episodes முழுவதற்கான Mythos run சுமார் $36,428 செலவாகியதாகக் கூறப்படுகிறது, GPT-5.5 123 episodes-ஐ சுமார் $3,075-க்கு இயக்கியது. அது சுமார் 12 மடங்கு வித்தியாசம்.

இது முக்கியம், ஏனெனில் செலவு சூழலைத் தவிர்த்து திறனைப் பார்ப்பது தவறாக வழிநடத்தலாம். ஒரு model மிகவும் சிறப்பாக செயல்பட்டு, அதற்காக பெரும் செலவு வேண்டுமானால், குறைந்த செலவில் உள்ள போட்டியாளர் கூடுதலான compute அல்லது நீண்ட runtime மூலம் இடைவெளியை குறைக்க முடியும் என்றால், அது எப்போதும் முக்கியமான கதை ஆகாது. GPT-5.5 அதிக compute ஒதுக்குவதன் மூலம் இடைவெளியை குறைக்கக்கூடும் என்று கட்டுரை குறிப்பாக சொல்கிறது.

V8 ஏன் முக்கிய இலக்கு

V8-க்கு கவனம் செலுத்துவது stakes-ஐ உயர்த்துகிறது. V8 Chrome, Edge, Node.js, மற்றும் Cloudflare Workers-ஐ இயக்குகிறது என்று மூலத்தில் குறிப்பிடப்படுகிறது; இதனால் அது நவீன இணையத்தின் மிக முக்கியமான software engines-இல் ஒன்றாகிறது. ஆகவே, உண்மையான V8 vulnerabilities-க்கு இணைக்கப்பட்ட benchmark, toy environment அல்லது puzzle-style challenge-ஐ விட நடைமுறை பாதுகாப்பு விளைவுகள் பற்றி அதிகம் சொல்கிறது.

இதனாலேயே tiered design குறிப்பிடத்தக்கது. இது ஒரு பிரச்சினையைக் கண்டுபிடிப்பதற்கும் அதை ஆயுதமாக்குவதற்கும் உள்ள வேறுபாட்டைக் காட்டுகிறது. பாதுகாப்பு பணியில் அந்த வேறுபாடே அனைத்தும். bug discovery-யிலிருந்து வெற்றிகரமான exploitation வரை காரணமுடன்கட்டங்களைச் செல்லக்கூடிய agent, வெறும் சந்தேகமான code patterns-ஐ சுட்டிக்காட்டும் agent-ஐ விட முற்றிலும் வேறு risk category-யில் செயல்படுகிறது.

Anthropic கட்டாய தணிக்கைகளை கோருகிறது; AI-யை மூலதன அடித்தளமாக மறுபரிசீலனை செய்கிறது

Anthropic CEO Dario Amodei கூறுவதாவது, வெளிப்படைத்தன்மை விதிகள் மட்டும் இனி போதாது; முன்னணி AI அமைப்புகளுக்கு கட்டாய மூன்றாம் தரப்பு தணிக்கைகள் வேண்டும்.

Read article

மனித-மட்டம் ஒப்பீடுகளில் எச்சரிக்கை தேவை

மூல உரையின் படி, 20-க்கும் மேற்பட்ட reported browser vulnerabilities கொண்ட அனுபவம் வாய்ந்த security researcher ஆன ExploitBench இணை எழுத்தாளர் Seunghyun Lee முடிவுகளை மதிப்பாய்வு செய்து, Mythos-ஐ திறமையான human browser security researcher-க்கு சமமானதாக மதிப்பிட்டார். இது கவனம் ஈர்க்கும் கூற்று, ஆனால் கவனமாகப் படிக்கப்பட வேண்டும். Benchmarks உண்மையான திறனை வெளிப்படுத்த முடியும், என்றாலும் reliability, reproducibility, மற்றும் அமைக்கப்பட்ட மதிப்பீட்டு சூழலுக்கு வெளியே மாதிரிகள் எவ்வாறு செயல்படுகின்றன என்பது போன்ற கேள்விகள் திறந்தவையாகவே இருக்கலாம்.

எனினும், திசையை புறக்கணிக்க முடியாது. இந்த benchmark, குறைந்தது சில frontier AI systems, ஒரு முக்கிய software engine-இல் end-to-end exploit development-க்கு அருகே சென்று கொண்டிருக்கின்றன என்று சுட்டுகிறது. இப்போது விவாதம் பெரும்பாலும் degree, cost, மற்றும் operating constraints பற்றி தான்; trajectory இருக்கிறதா என்ற கேள்வி பற்றி அல்ல.

கொள்கை நிர்ணயாளர்கள், platform operators, மற்றும் labs-க்கு இது உரையாடலை மாற்றுகிறது. முக்கியமான கேள்வி, models offensive cyber work-க்கு உதவ முடியுமா என்பதல்ல, அந்த உதவி எவ்வளவு விரைவில் மலிவாக, மேலும் autonomous-ஆக, மேலும் பரவலாகக் கிடைக்குமா என்பதே.

இந்தக் கட்டுரை The Decoder இன் செய்தியினை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

புதிய exploit benchmark, frontier AI மாதிரிகள் offensive security-யில் மேலும் ஆழமாக செல்வதை காட்டுகிறது