యూకే AI సైబర్‌సెక్యూరిటీ పరీక్షల్లో GPT-5.5, Mythos Previewతో సమానం

కొత్త బెంచ్‌మార్క్ ఫలితాలు AI సేఫ్టీ కథనాలకీ కొలిచిన పనితీరికీ మధ్య దూరాన్ని తగ్గించాయి

యూకేలోని AI Security Institute తాజాగా చేసిన సైబర్‌సెక్యూరిటీ పరీక్షలు ఫ్రంటియర్ AIపై ఇటీవల ఎక్కువగా వినిపించిన ఒక కథనాన్ని క్లిష్టం చేస్తున్నాయి: Anthropic యొక్క Mythos Preview ఒక ప్రత్యేకంగా ఎత్తైన సైబర్ ముప్పును సూచిస్తోందనే భావన. కొత్త ఫలితాల ప్రకారం, OpenAI యొక్క GPT-5.5 ఇన్‌స్టిట్యూట్ యొక్క సైబర్ అంచనాల్లో దాదాపు సమాన పనితీరు స్థాయిని సాధించింది, దీని వల్ల Mythos అనేది ఒకే పెద్ద ఎగువ దూకుడుకంటే, విస్తృత మోడల్ పురోగతికి సంకేతం కావచ్చని తెలుస్తోంది.

ఇదే ప్రధాన నిర్ధారణను Ars Technica, AISI ఫలితాల ఆధారంగా నివేదించింది. ఇది ముఖ్యమైనది, ఎందుకంటే Anthropic ముందుగా Mythos Preview యొక్క అసాధారణ సైబర్‌సెక్యూరిటీ ప్రమాదాన్ని హైలైట్ చేసి, ప్రారంభ విడుదలను కీలక పరిశ్రమ భాగస్వాములకు మాత్రమే పరిమితం చేసింది. ఈ కొత్త పోలిక ఆ ప్రమాదాలు ఊహాజనితమని చెప్పడం లేదు. దీర్ఘకాలిక స్వయంచాలకత, తర్కశక్తి, మరియు కోడింగ్ మెరుగుపడుతున్న కొద్దీ, ఇలాంటి సామర్థ్యాలు అగ్రస్థాయి మోడళ్లన్నింటిలోనూ వెలుగులోకి రావొచ్చని చెబుతోంది.

పరీక్షలు ఏమి కొలిచాయి

2023 నుండి AISI, ఫ్రంటియర్ AI వ్యవస్థలను 95 Capture the Flag ఛాలెంజ్‌ల ద్వారా పరీక్షిస్తోంది. ఇవి reverse engineering, web exploitation, మరియు cryptography వంటి రంగాల్లో సైబర్‌సెక్యూరిటీ సామర్థ్యాలను పరిశీలించడానికి రూపొందించబడ్డాయి. ఇవి మోడల్ సామర్థ్యంపై అస్పష్ట అభిప్రాయాలు కావు. ఇవి స్పష్టమైన దాడి-శైలి సైబర్ పనుల్లో వ్యవస్థలు ఎంత దూరం వెళ్లగలవో చూపించే task-based evaluations.

అత్యున్నత స్థాయి “Expert” పనుల్లో GPT-5.5 సగటున 71.4 శాతం సాధించింది, ఇది Mythos Preview యొక్క 68.6 శాతం కంటే కొద్దిగా ఎక్కువ, మరియు పొరపాటు పరిధిలోనే ఉంది. ఈ framing ముఖ్యమైనది. ఈ ఫలితం ఖచ్చితమైన విజేతను స్థాపించదు. ఒక మోడల్ మాత్రమే కొత్త risk category లోకి ప్రవేశించిందనే భావనను ప్రశ్నించేంత స్థాయిలో సమానత్వాన్ని చూపిస్తుంది.

Two drones, one yellow, one grey, almost identical otherwise.

FCC moves toward retroactive ban on suspected DJI front companies

The U.S. communications regulator is preparing to use a new enforcement tool against companies it says disguised DJI products to keep them on the American market.

Read article

ఆపరేషనల్‌గా కనిపించే పనితీరు

రిపోర్టింగ్‌లో అత్యంత ఆకర్షణీయమైన వివరాల్లో ఒకటి Rust binaryని decode చేయడానికి ఒక disassembler రూపొందించాల్సిన కఠిన పనికి సంబంధించినది. మానవ సహాయం లేకుండా GPT-5.5 ఆ ఛాలెంజ్‌ను 10 నిమిషాలు 22 సెకన్లలో పరిష్కరించిందని AISI తెలిపింది, API ఖర్చు $1.73 మాత్రమే. ఇది చిన్న డేటా పాయింట్ అయినప్పటికీ చాలా విషయాలను సూచిస్తుంది: వేగం, స్వయంచాలకత, మరియు తక్కువ marginal cost అన్నీ జాగ్రత్తగా గమనించాల్సిన దిశలో కదులుతున్నాయి.

ఇన్‌స్టిట్యూట్ “The Last Ones” అనే 32-దశల simulated data-extraction attack పై కూడా మోడళ్లను అంచనా వేసింది. GPT-5.5 10 ప్రయత్నాల్లో 3 సార్లు విజయవంతమైంది, Mythos Preview 10లో 2 సార్లు మాత్రమే విజయం సాధించింది. ఇంతకు ముందు ఏ మోడల్ కూడా ఆ పరీక్షలో ఒక్కసారైనా విజయం సాధించలేదని Ars Technica పేర్కొంది. దీని అర్థం ఈ వ్యవస్థలు నియంత్రణలేని వాస్తవ ప్రపంచ పరిస్థితుల్లో ఇలాంటి దాడులను నమ్మకంగా అమలు చేయగలవని కాదు. కానీ, తీవ్రమైన సైబర్ ఆపరేషన్లను అనుకరించేందుకు రూపొందించిన నిర్మిత వాతావరణాల్లో, ఫ్రంటియర్ మోడళ్లు గత తరాలు చేరలేని ఫలితాలను ఇప్పుడు సాధిస్తున్నాయని ఇది సూచిస్తుంది.

పరిమితులు ఇంకా ముఖ్యమే

ఈ ఫలితాలు నియంత్రణలేని AI సైబర్ ఆధిపత్య కథనం కావు. పవర్ ప్లాంట్ నియంత్రణ సాఫ్ట్‌వేర్‌ను భగ్నం చేయాలనే ప్రయత్నాన్ని మోడలింగ్ చేసే AISI యొక్క మరింత కఠినమైన “Cooling Tower” simulationలో GPT-5.5 ఇంకా విఫలమైంది. ఇప్పటివరకు పరీక్షించిన అన్ని మోడళ్లు కూడా ఆ బెంచ్‌మార్క్‌లో విఫలమయ్యాయి. ఈ unresolved limit ముఖ్యమైనది, ఎందుకంటే సామర్థ్య వృద్ధి నిజమే కానీ అసమానమైందని ఇది చూపిస్తుంది. కొన్ని దాడి-ప్రకార పనుల్లో మోడళ్లు గణనీయంగా బలపడవచ్చు, కానీ అత్యంత తీవ్రమైన వాదనలను సమర్థించే పూర్తి సామర్థ్యాలను ఇంకా ప్రదర్శించలేదు.

మరో మాటలో చెప్పాలంటే, కొత్త ఫలితాలు అలసత్వం మరియు అతిశయోక్తి రెండింటికీ వ్యతిరేకంగా నిలుస్తాయి. మోడల్ కుటుంబాలన్నింటిలోనూ సైబర్ సామర్థ్యం వేగంగా పెరుగుతోందని అవి సూచిస్తున్నాయి, కానీ నేటి వ్యవస్థలు ఇప్పటికే కీలక మౌలిక సదుపాయాల దాడి simulationలో ప్రతి కఠిన లక్ష్యాన్నీ పరిష్కరించేశాయని మాత్రం అవి చెప్పడం లేదు.

$A fractured image of a person speaking into a microphone.$

Sony expands Udio fight with new lawsuit over 30,000 songs

Sony Music has filed a new lawsuit accusing Udio of infringing more than 30,000 songs, escalating one of the most consequential copyright fights around generative AI music.

Read article

ప్రమాదం గురించి కంపెనీలు ఎలా మాట్లాడుతున్నాయన్న చర్చ

ఈ బెంచ్‌మార్క్ పోలిక AI communications strategyపై మరో వాదనకూ దారితీస్తుంది. కొన్ని మోడళ్ల పరిమిత విడుదలల చుట్టూ “fear-based marketing” అని తాను పేర్కొన్న దానిపై OpenAI CEO సామ్ ఆల్ట్‌మన్ చేసిన విమర్శను Ars Technica హైలైట్ చేసింది. AISI యొక్క స్వంత interpretation కూడా అదే దిశలో సాగుతోంది; Mythos Preview బహుశా “one model-specific breakthrough” కాదని, స్వయంచాలకత, తర్కం, మరియు కోడింగ్‌లోని విస్తృత మెరుగుదలల ఉపఫలితమని అది రాస్తోంది.

దీని అర్థం మోడల్ డెవలపర్లు సైబర్ ప్రమాదం గురించి హెచ్చరికలు ఇవ్వడం ఆపేయాలన్నది కాదు. నిజానికి, విస్తృతమైన సూచన దీనికి విరుద్ధంగా ఉండొచ్చు. ఇలాంటి సామర్థ్యాలు అనేక ఫ్రంటియర్ వ్యవస్థల్లో కనిపిస్తే, విధాన చర్చ ప్రత్యేక మోడల్ విడుదలలను అపూర్వ సంఘటనలుగా చూడటం నుండి, మరింత వ్యవస్థాత్మక ధోరణిని అర్థం చేసుకునే దిశగా మారాలి. ఆధార పనితీరు వక్రం పంచుకున్నదైతే, ప్రమాదం ఒక కంపెనీ preview modelకే పరిమితం కాదు.

ఇది ఇప్పుడే ఎందుకు ముఖ్యం

GPT-5.5 ఫలితానికి అసలు ప్రాముఖ్యత గొప్పగా చెప్పుకునే హక్కు కాదు. అది అధునాతన సైబర్ సామర్థ్యం ప్రముఖ మోడళ్లలో మరింత విస్తృతంగా పంచుకుంటోందని చూపే సాక్ష్యం. ఇది ల్యాబ్‌లు, నియంత్రణ సంస్థలు, మరియు ఎంటర్‌ప్రైజ్ వినియోగదారులు evaluation, access control, red teaming, మరియు incident preparedness గురించి ఎలా ఆలోచించాలో మార్చుతుంది. empirical safety చర్చల ప్రమాణాన్ని కూడా ఇది పెంచుతుంది. కంపెనీలు ఒక మోడల్ ప్రత్యేకత గురించి నాటకీయ వాదనలు చేయవచ్చు, కానీ comparative testing increasingly ఆ కథనాలపై ఒక చెక్‌ను అందిస్తోంది.

ప్రస్తుతం అందుబాటులో ఉన్న సాక్ష్యాలు సంకుచితమైనప్పటికీ గణనీయమైన ఒక నిర్ణయాన్ని సమర్థిస్తున్నాయి. GPT-5.5, AISI యొక్క సైబర్ అంచనాల్లో Mythos Previewతో దాదాపు అదే స్థాయిలో పనిచేసింది, కొన్ని కొలమానాల్లో కొద్దిగా మెరుగ్గా నిలిచింది, మరియు దీర్ఘకాలిక సాంకేతిక పనుల్లో మరింత సామర్థ్యవంతమవుతున్న ఫ్రంటియర్ మోడళ్ల విస్తృత నమూనాతో సరిపోయింది. హైప్ గ్యాప్ తగ్గుతోందని అనిపిస్తోంది. అయితే సామర్థ్య వక్రం ఇంకా పైకి వెళ్తూనే ఉంది.

ఈ వ్యాసం Ars Technica రిపోర్టింగ్‌పై ఆధారపడి ఉంది. అసలు వ్యాసాన్ని చదవండి.

“The Turning Point: To Be Destroyed” Premiere - 2024 Tribeca Festival

Dave Eggers Used an OpenAI Talk to Warn About Writing and Education

Author Dave Eggers reportedly told OpenAI staff that ChatGPT has made teachers’ lives harder and risks undermining students’ ability to learn how to write in their own voice.

Read article

Originally published on arstechnica.com

యూకే సైబర్‌సెక్యూరిటీ పరీక్షల్లో Mythos Preview‌కు సమానంగా GPT-5.5, హైప్‌ను ప్రశ్నిస్తోంది

కొత్త బెంచ్‌మార్క్ ఫలితాలు AI సేఫ్టీ కథనాలకీ కొలిచిన పనితీరికీ మధ్య దూరాన్ని తగ్గించాయి

పరీక్షలు ఏమి కొలిచాయి

FCC moves toward retroactive ban on suspected DJI front companies

ఆపరేషనల్‌గా కనిపించే పనితీరు

పరిమితులు ఇంకా ముఖ్యమే

Sony expands Udio fight with new lawsuit over 30,000 songs

ప్రమాదం గురించి కంపెనీలు ఎలా మాట్లాడుతున్నాయన్న చర్చ

ఇది ఇప్పుడే ఎందుకు ముఖ్యం

Dave Eggers Used an OpenAI Talk to Warn About Writing and Education

Comments (0)

Related Articles

Apple Maps Ads Will Exclude Home Services

France orders ISPs to block Polymarket access

Truth Social to sell real-time API access to top accounts

OMB Grant Proposal Draws Fierce Backlash From Space Science Advocates

Joolca Hottap Go Review: A $700 Portable Shower for the Adventurous

Keep Reading