కొత్త Exploit Benchmark AI browser hacking లో ఎంత దూరం వెళ్ళగలదో చూపిస్తోంది

అధిక ప్రమాదం ఉన్న capability frontier ను కొలిచే benchmark

Google యొక్క V8 JavaScript engine లోని నిజ జీవిత vulnerabilities ను వినియోగించడంలో AI agents ఎంత దూరం వెళ్లగలవో పరీక్షించడానికి Carnegie Mellon University పరిశోధకులు కొత్త benchmark ను ప్రవేశపెట్టారు. The Decoder అందించిన మూల పాఠ్యం ప్రకారం, offensive security లో frontier model ప్రవర్తనకు ఇది మరింత స్పష్టమైన చిత్రం ఇస్తోంది: కొన్ని systems ఇప్పుడు bugs ను గుర్తించడం లేదా crashes ను ప్రేరేపించడం కంటే ముందుకు వెళ్లి, పూర్తిస్థాయి code execution దిశగా సాగుతున్నాయి.

ఈ benchmark ముఖ్యమైనది, ఎందుకంటే ఇది ఫలితాలను pass-fail పరీక్షగా కుదించకుండా దశలవారీగా పనితీరును కొలుస్తుంది. మూలంలో వివరించినట్టు, ఈ framework agents ను ఐదు tiers లో స్కోర్ చేస్తుంది; చివరి స్థాయి target system పై arbitrary code execution. ఈ నిర్మాణం autonomous లేదా semi-autonomous model ఒక exploit-development workflow లో వాస్తవానికి ఏం సాధించగలదో మరింత నిజమైన దృశ్యాన్ని ఇస్తుంది.

Claude Mythos ముందంజ, GPT-5.5 వెనుకబడింది

రిపోర్ట్ చేసిన ముఖ్య ఫలితం పరీక్షలోని రెండు అగ్రస్థాయి systems మధ్య పెద్ద గ్యాప్. Anthropic యొక్క Claude Mythos Preview, అప్పుడప్పుడూ human nudges తో, సగటు 9.90 / 16 స్కోరు సాధించింది మరియు 41 vulnerabilities లో 21 పై top tier ను చేరుకుంది. OpenAI యొక్క GPT-5.5 5.51 స్కోరు సాధించి, వాటిలో కేవలం రెండు vulnerabilities లోనే top tier కు చేరింది.

పూర్తిగా autonomous mode లో కూడా తేడా భారీగానే ఉంది. Mythos 9.55 పాయింట్లను నిలుపుకుంది, GPT-5.5 via Codex 4.30 మాత్రమే సాధించింది. పరీక్షించిన ఇతర models ఏవీ full code execution ను సాధించలేదని మూలం చెబుతోంది. ఈ సంఖ్యలు విస్తృత scrutiny లో కూడా నిలిస్తే, offensive cyber tasks లో model capability ముందువరుస మిగతా రంగం నుండి public evaluations చూపిన దానికంటే వేగంగా వేరుపడుతోందని సూచిస్తుంది.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 గంటల రోబోటిక్స్ డేటాసెట్‌ను ఓపెన్-సోర్స్ చేసింది

X Square Robot, embodied AI వ్యవస్థలకు అవసరమైన నిజమైన రోబోట్ శిక్షణ డేటా పరిమాణాన్ని తగ్గించడానికి లక్ష్యంగా XRZero-G0 మరియు 2,000 గంటల మల్టీమోడల్ డేటాసెట్‌ను విడుదల చేసింది.

Read article

ఖర్చు అర్థాన్ని మార్చేస్తుంది

ఈ benchmark ఒక సరళమైన విజేతను సూచించడం లేదు. Mythos పనితీరు భారీ ఖర్చుతో వచ్చిందని The Decoder యొక్క మూల పాఠ్యం పేర్కొంటుంది. 122 episodes లో Mythos పూర్తి run కి సుమారు $36,428 ఖర్చయ్యిందని, GPT-5.5 123 episodes ను సుమారు $3,075 కు నడిపిందని చెబుతోంది. అంటే సుమారు పన్నెండు రెట్లు తేడా.

ఇది ముఖ్యమైనది, ఎందుకంటే capability ను cost context లేకుండా చూడడం తప్పుదారి పట్టించవచ్చు. ఒక model చాలా మెరుగ్గా పని చేసి, దానికి విపరీతమైన ఖర్చు అవసరమైతే, తక్కువ ఖర్చుతో ఉన్న rival అదనపు compute లేదా ఎక్కువ runtime తో ఆ తేడాను తగ్గించగలిగితే, అది ఎప్పుడూ మరింత ముఖ్యమైన కథ కాకపోవచ్చు. GPT-5.5 ఎక్కువ compute కేటాయించడం ద్వారా గ్యాప్ తగ్గించగలదని వ్యాసం సూచిస్తోంది.

V8 ఎందుకు ముఖ్యమైన లక్ష్యం

V8 పై దృష్టి stakes ను పెంచుతుంది. V8 Chrome, Edge, Node.js, మరియు Cloudflare Workers ను శక్తినివ్వడం వల్ల, అది ఆధునిక ఇంటర్నెట్‌లో అత్యంత కీలకమైన software engines లో ఒకటిగా మారింది. అందువల్ల, నిజమైన V8 vulnerabilities కు అనుసంధానించిన benchmark, toy environment లేదా puzzle-style challenge కంటే ప్రాక్టికల్ security implications గురించి ఎక్కువ చెబుతుంది.

అదే కారణంగా tiered design ప్రాముఖ్యమైనది. ఇది సమస్యను కనుగొనడం మరియు దానిని weaponize చేయడం మధ్య తేడాను చూపిస్తుంది. security పనిలో ఆ తేడానే అన్నీ. bug discovery నుండి విజయవంతమైన exploitation వరకు reasoning చేయగల agent, కేవలం అనుమానాస్పద code patterns ను చూపగల agent కంటే పూర్తిగా వేరే risk category లో పనిచేస్తోంది.

Our new community investments in Virginia support local jobs and expand energy affordability.

గూగుల్ వర్జీనియాలో పెట్టుబడి: $15 మిలియన్ ఎనర్జీ ఫండ్ మరియు 2,741 అప్రెంటిస్‌షిప్‌లు

స్థానిక ఉద్యోగాలు, విద్యుత్ ఖర్చుల స్థిరత్వాన్ని పెంచేందుకు గూగుల్ వర్జీనియాలో $15 మిలియన్ ఎనర్జీ ఇంపాక్ట్ ఫండ్ మరియు 2,741 ఎలక్ట్రికల్ అప్రెంటిస్‌షిప్‌లకు మద్దతు ప్రకటించింది.

Read article

human-level పోలికల్లో జాగ్రత్త అవసరం

మూల పాఠ్యం ప్రకారం, 20 కంటే ఎక్కువ reported browser vulnerabilities ఉన్న అనుభవజ్ఞ security researcher అయిన ExploitBench సహ-రచయిత Seunghyun Lee ఫలితాలను సమీక్షించి, Mythos ను నైపుణ్యం ఉన్న human browser security researcher స్థాయిలో ఉందని అభిప్రాయపడ్డారు. ఇది ఆకర్షణీయమైన వ్యాఖ్య అయినా, జాగ్రత్తగా చదవాలి. Benchmarks నిజమైన సామర్థ్యాన్ని చూపగలవు, అయినప్పటికీ reliability, reproducibility, మరియు నిర్మిత మూల్యాంకన వాతావరణం వెలుపల models ఎలా ప్రవర్తిస్తాయన్న ప్రశ్నలు మిగులుతాయి.

అయినా, దిశను విస్మరించడం కష్టం. ఈ benchmark కనీసం కొన్ని frontier AI systems, ప్రధాన software engine లో end-to-end exploit development కు దగ్గరగా వెళ్తున్నాయని సూచిస్తోంది. ఇప్పుడు చర్చ ఎక్కువగా degree, cost, మరియు operating constraints గురించి; trajectory ఉందా లేదా అనే ప్రశ్న గురించి కాదు.

కాబట్టి policymakers, platform operators, మరియు labs కోసం ఇది చర్చను మార్చుతుంది. ప్రధాన ప్రశ్న models offensive cyber work లో సహాయపడగలవా కాదా అన్నది కాదు, ఆ సహాయం ఎంత త్వరగా చౌకగా, మరింత autonomous గా, మరియు విస్తృతంగా అందుబాటులోకి వస్తుందన్నదే.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com

కొత్త exploit benchmark frontier AI మోడళ్లు offensive security లో మరింత లోతుగా వెళ్తున్నాయని చూపిస్తోంది