అధిక ప్రమాదం ఉన్న capability frontier ను కొలిచే benchmark

Google యొక్క V8 JavaScript engine లోని నిజ జీవిత vulnerabilities ను వినియోగించడంలో AI agents ఎంత దూరం వెళ్లగలవో పరీక్షించడానికి Carnegie Mellon University పరిశోధకులు కొత్త benchmark ను ప్రవేశపెట్టారు. The Decoder అందించిన మూల పాఠ్యం ప్రకారం, offensive security లో frontier model ప్రవర్తనకు ఇది మరింత స్పష్టమైన చిత్రం ఇస్తోంది: కొన్ని systems ఇప్పుడు bugs ను గుర్తించడం లేదా crashes ను ప్రేరేపించడం కంటే ముందుకు వెళ్లి, పూర్తిస్థాయి code execution దిశగా సాగుతున్నాయి.

ఈ benchmark ముఖ్యమైనది, ఎందుకంటే ఇది ఫలితాలను pass-fail పరీక్షగా కుదించకుండా దశలవారీగా పనితీరును కొలుస్తుంది. మూలంలో వివరించినట్టు, ఈ framework agents ను ఐదు tiers లో స్కోర్ చేస్తుంది; చివరి స్థాయి target system పై arbitrary code execution. ఈ నిర్మాణం autonomous లేదా semi-autonomous model ఒక exploit-development workflow లో వాస్తవానికి ఏం సాధించగలదో మరింత నిజమైన దృశ్యాన్ని ఇస్తుంది.

Claude Mythos ముందంజ, GPT-5.5 వెనుకబడింది

రిపోర్ట్ చేసిన ముఖ్య ఫలితం పరీక్షలోని రెండు అగ్రస్థాయి systems మధ్య పెద్ద గ్యాప్. Anthropic యొక్క Claude Mythos Preview, అప్పుడప్పుడూ human nudges తో, సగటు 9.90 / 16 స్కోరు సాధించింది మరియు 41 vulnerabilities లో 21 పై top tier ను చేరుకుంది. OpenAI యొక్క GPT-5.5 5.51 స్కోరు సాధించి, వాటిలో కేవలం రెండు vulnerabilities లోనే top tier కు చేరింది.

పూర్తిగా autonomous mode లో కూడా తేడా భారీగానే ఉంది. Mythos 9.55 పాయింట్లను నిలుపుకుంది, GPT-5.5 via Codex 4.30 మాత్రమే సాధించింది. పరీక్షించిన ఇతర models ఏవీ full code execution ను సాధించలేదని మూలం చెబుతోంది. ఈ సంఖ్యలు విస్తృత scrutiny లో కూడా నిలిస్తే, offensive cyber tasks లో model capability ముందువరుస మిగతా రంగం నుండి public evaluations చూపిన దానికంటే వేగంగా వేరుపడుతోందని సూచిస్తుంది.

ఖర్చు అర్థాన్ని మార్చేస్తుంది

ఈ benchmark ఒక సరళమైన విజేతను సూచించడం లేదు. Mythos పనితీరు భారీ ఖర్చుతో వచ్చిందని The Decoder యొక్క మూల పాఠ్యం పేర్కొంటుంది. 122 episodes లో Mythos పూర్తి run కి సుమారు $36,428 ఖర్చయ్యిందని, GPT-5.5 123 episodes ను సుమారు $3,075 కు నడిపిందని చెబుతోంది. అంటే సుమారు పన్నెండు రెట్లు తేడా.

ఇది ముఖ్యమైనది, ఎందుకంటే capability ను cost context లేకుండా చూడడం తప్పుదారి పట్టించవచ్చు. ఒక model చాలా మెరుగ్గా పని చేసి, దానికి విపరీతమైన ఖర్చు అవసరమైతే, తక్కువ ఖర్చుతో ఉన్న rival అదనపు compute లేదా ఎక్కువ runtime తో ఆ తేడాను తగ్గించగలిగితే, అది ఎప్పుడూ మరింత ముఖ్యమైన కథ కాకపోవచ్చు. GPT-5.5 ఎక్కువ compute కేటాయించడం ద్వారా గ్యాప్ తగ్గించగలదని వ్యాసం సూచిస్తోంది.

V8 ఎందుకు ముఖ్యమైన లక్ష్యం

V8 పై దృష్టి stakes ను పెంచుతుంది. V8 Chrome, Edge, Node.js, మరియు Cloudflare Workers ను శక్తినివ్వడం వల్ల, అది ఆధునిక ఇంటర్నెట్‌లో అత్యంత కీలకమైన software engines లో ఒకటిగా మారింది. అందువల్ల, నిజమైన V8 vulnerabilities కు అనుసంధానించిన benchmark, toy environment లేదా puzzle-style challenge కంటే ప్రాక్టికల్ security implications గురించి ఎక్కువ చెబుతుంది.

అదే కారణంగా tiered design ప్రాముఖ్యమైనది. ఇది సమస్యను కనుగొనడం మరియు దానిని weaponize చేయడం మధ్య తేడాను చూపిస్తుంది. security పనిలో ఆ తేడానే అన్నీ. bug discovery నుండి విజయవంతమైన exploitation వరకు reasoning చేయగల agent, కేవలం అనుమానాస్పద code patterns ను చూపగల agent కంటే పూర్తిగా వేరే risk category లో పనిచేస్తోంది.

human-level పోలికల్లో జాగ్రత్త అవసరం

మూల పాఠ్యం ప్రకారం, 20 కంటే ఎక్కువ reported browser vulnerabilities ఉన్న అనుభవజ్ఞ security researcher అయిన ExploitBench సహ-రచయిత Seunghyun Lee ఫలితాలను సమీక్షించి, Mythos ను నైపుణ్యం ఉన్న human browser security researcher స్థాయిలో ఉందని అభిప్రాయపడ్డారు. ఇది ఆకర్షణీయమైన వ్యాఖ్య అయినా, జాగ్రత్తగా చదవాలి. Benchmarks నిజమైన సామర్థ్యాన్ని చూపగలవు, అయినప్పటికీ reliability, reproducibility, మరియు నిర్మిత మూల్యాంకన వాతావరణం వెలుపల models ఎలా ప్రవర్తిస్తాయన్న ప్రశ్నలు మిగులుతాయి.

అయినా, దిశను విస్మరించడం కష్టం. ఈ benchmark కనీసం కొన్ని frontier AI systems, ప్రధాన software engine లో end-to-end exploit development కు దగ్గరగా వెళ్తున్నాయని సూచిస్తోంది. ఇప్పుడు చర్చ ఎక్కువగా degree, cost, మరియు operating constraints గురించి; trajectory ఉందా లేదా అనే ప్రశ్న గురించి కాదు.

కాబట్టి policymakers, platform operators, మరియు labs కోసం ఇది చర్చను మార్చుతుంది. ప్రధాన ప్రశ్న models offensive cyber work లో సహాయపడగలవా కాదా అన్నది కాదు, ఆ సహాయం ఎంత త్వరగా చౌకగా, మరింత autonomous గా, మరియు విస్తృతంగా అందుబాటులోకి వస్తుందన్నదే.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com