नया Exploit Benchmark दिखाता है कि AI browser hacking में कितनी दूर जा सकता है

एक अधिक खतरनाक capability frontier का benchmark

कार्नेगी मेलॉन विश्वविद्यालय के शोधकर्ताओं ने एक नया benchmark पेश किया है, जिसका उद्देश्य यह परीक्षण करना है कि AI agents Google के V8 JavaScript engine में वास्तविक दुनिया की vulnerabilities का फायदा उठाने में कितनी दूर जा सकते हैं। दायर स्रोत पाठ, The Decoder के अनुसार, frontier model व्यवहार की offensive security में एक अधिक ठोस तस्वीर देता है: कुछ सिस्टम अब केवल bugs पहचानने या crashes ट्रिगर करने तक सीमित नहीं हैं, बल्कि full code execution की ओर बढ़ रहे हैं।

यह benchmark महत्वपूर्ण है क्योंकि यह प्रदर्शन को चरणों में मापता है, बजाय इसके कि परिणामों को केवल pass-fail टेस्ट में समेट दिया जाए। स्रोत के अनुसार, यह framework agents को पाँच tiers में स्कोर करता है, जिसका अंतिम स्तर target system पर arbitrary code execution है। यह संरचना इस बात की अधिक यथार्थवादी तस्वीर देती है कि कोई autonomous या semi-autonomous model exploit-development workflow में वास्तव में क्या कर सकता है।

Claude Mythos आगे, GPT-5.5 पीछे

रिपोर्ट किया गया मुख्य परिणाम परीक्षण में दो प्रमुख प्रणालियों के बीच बड़ा अंतर है। Anthropic का Claude Mythos Preview, कभी-कभी मानव संकेतों के साथ, औसतन 9.90 में से 16 अंक तक पहुंचा और 41 vulnerabilities में से 21 पर शीर्ष tier हासिल किया। OpenAI का GPT-5.5 5.51 अंक पर रहा और उन vulnerabilities में से केवल दो पर top tier तक पहुंच पाया।

पूरी तरह autonomous mode में भी अंतर व्यापक रहा। Mythos ने 9.55 अंक बनाए रखे, जबकि GPT-5.5 via Codex 4.30 तक ही पहुंच सका। स्रोत कहता है कि किसी अन्य परीक्षण किए गए model ने full code execution हासिल नहीं की। यदि ये आंकड़े व्यापक scrutiny में भी टिकते हैं, तो वे सुझाव देते हैं कि offensive cyber tasks में model capability का अग्रणी किनारा बाकी क्षेत्र से सार्वजनिक मूल्यांकनों की तुलना में अधिक तेज़ी से अलग हो रहा है।

Anthropic ने बाध्यकारी ऑडिट की मांग की, क्योंकि वह AI को रणनीतिक अवसंरचना के रूप में फिर से परिभाषित कर रही है

Anthropic के CEO Dario Amodei का कहना है कि पारदर्शिता के नियम अब पर्याप्त नहीं हैं और वह अग्रणी AI प्रणालियों के लिए अनिवार्य तृतीय-पक्ष ऑडिट की मांग कर रहे हैं।

Read article

लागत व्याख्या बदल देती है

यह benchmark किसी सरल विजेता की ओर इशारा नहीं करता। The Decoder के स्रोत पाठ में इस बात पर जोर दिया गया है कि Mythos का प्रदर्शन भारी कीमत पर आया। 122 episodes में Mythos का पूरा run कथित तौर पर लगभग $36,428 का था, जबकि GPT-5.5 ने 123 episodes लगभग $3,075 में चलाए। यानी लगभग बारह गुना अंतर।

यह महत्वपूर्ण है क्योंकि क्षमता को लागत संदर्भ के बिना पढ़ना भ्रामक हो सकता है। कोई model बहुत बेहतर प्रदर्शन करे, लेकिन उसके लिए बहुत अधिक खर्च चाहिए, तो वह हमेशा अधिक महत्वपूर्ण कहानी नहीं होता, खासकर अगर सस्ता rival अधिक compute या लंबे runtime से सुधार कर सके। लेख ठीक इसी संभावना की ओर इशारा करता है, और सुझाता है कि OpenAI अधिक compute आवंटित करके अंतर कम कर सकता है।

V8 एक महत्वपूर्ण लक्ष्य क्यों है

V8 पर ध्यान दांव को बढ़ाता है। स्रोत नोट करता है कि V8 Chrome, Edge, Node.js, और Cloudflare Workers को शक्ति देता है, जिससे यह आधुनिक इंटरनेट के सबसे महत्वपूर्ण software engines में से एक बन जाता है। इसलिए वास्तविक V8 vulnerabilities से जुड़ा benchmark किसी toy environment या puzzle-style चुनौती की तुलना में व्यावहारिक सुरक्षा प्रभावों के बारे में अधिक बताता है।

यही कारण है कि tiered design उल्लेखनीय है। यह किसी समस्या को ढूंढने और उसे हथियार बनाने के बीच के अंतर को दर्शाता है। सुरक्षा कार्य में यही अंतर सब कुछ है। ऐसा agent जो bug discovery से सफल exploitation तक के चरणों को reason कर सकता है, वह उस agent से बिल्कुल अलग risk category में काम कर रहा है जो केवल संदिग्ध code patterns को इंगित कर सकता है।

Our new community investments in Virginia support local jobs and expand energy affordability.

गूगल ने वर्जीनिया में निवेश किया: $15 मिलियन ऊर्जा कोष और 2,741 अप्रेंटिसशिप

गूगल ने वर्जीनिया में स्थानीय नौकरियों और ऊर्जा की सुलभता को बढ़ावा देने के लिए $15 मिलियन का एनर्जी इम्पैक्ट फंड और 2,741 इलेक्ट्रिकल अप्रेंटिसशिप का समर्थन घोषित किया.

Read article

मानव-स्तरीय तुलना में सावधानी जरूरी है

स्रोत पाठ के अनुसार, ExploitBench के सह-लेखक Seunghyun Lee, जो 20 से अधिक reported browser vulnerabilities वाले अनुभवी security researcher हैं, ने परिणामों की समीक्षा की और Mythos को एक सक्षम human browser security researcher के समकक्ष माना। यह एक तीखा दावा है, लेकिन इसे सावधानी से पढ़ना चाहिए। Benchmarks वास्तविक क्षमता को उजागर कर सकते हैं, फिर भी विश्वसनीयता, पुनरुत्पादनशीलता, और structured evaluation environment के बाहर models कैसा प्रदर्शन करते हैं, ऐसे प्रश्न खुले रह सकते हैं।

फिर भी, दिशा को नज़रअंदाज़ करना मुश्किल है। यह benchmark सुझाता है कि कम से कम कुछ frontier AI systems किसी प्रमुख software engine में end-to-end exploit development के करीब आ रहे हैं। अब बहस अधिकतर degree, cost, और operating constraints की है, न कि इस बात की कि trajectory मौजूद है या नहीं।

नीतिनिर्माताओं, platform operators, और labs के लिए, यह चर्चा को बदल देता है। सबसे महत्वपूर्ण सवाल अब शायद यह नहीं है कि models offensive cyber work में मदद कर सकते हैं या नहीं, बल्कि यह है कि वह मदद कितनी जल्दी सस्ती, अधिक autonomous, और अधिक व्यापक हो जाती है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com

एक नया exploit benchmark दिखाता है कि frontier AI मॉडल offensive security में और गहराई तक जा रहे हैं