एक अधिक खतरनाक capability frontier का benchmark
कार्नेगी मेलॉन विश्वविद्यालय के शोधकर्ताओं ने एक नया benchmark पेश किया है, जिसका उद्देश्य यह परीक्षण करना है कि AI agents Google के V8 JavaScript engine में वास्तविक दुनिया की vulnerabilities का फायदा उठाने में कितनी दूर जा सकते हैं। दायर स्रोत पाठ, The Decoder के अनुसार, frontier model व्यवहार की offensive security में एक अधिक ठोस तस्वीर देता है: कुछ सिस्टम अब केवल bugs पहचानने या crashes ट्रिगर करने तक सीमित नहीं हैं, बल्कि full code execution की ओर बढ़ रहे हैं।
यह benchmark महत्वपूर्ण है क्योंकि यह प्रदर्शन को चरणों में मापता है, बजाय इसके कि परिणामों को केवल pass-fail टेस्ट में समेट दिया जाए। स्रोत के अनुसार, यह framework agents को पाँच tiers में स्कोर करता है, जिसका अंतिम स्तर target system पर arbitrary code execution है। यह संरचना इस बात की अधिक यथार्थवादी तस्वीर देती है कि कोई autonomous या semi-autonomous model exploit-development workflow में वास्तव में क्या कर सकता है।
Claude Mythos आगे, GPT-5.5 पीछे
रिपोर्ट किया गया मुख्य परिणाम परीक्षण में दो प्रमुख प्रणालियों के बीच बड़ा अंतर है। Anthropic का Claude Mythos Preview, कभी-कभी मानव संकेतों के साथ, औसतन 9.90 में से 16 अंक तक पहुंचा और 41 vulnerabilities में से 21 पर शीर्ष tier हासिल किया। OpenAI का GPT-5.5 5.51 अंक पर रहा और उन vulnerabilities में से केवल दो पर top tier तक पहुंच पाया।
पूरी तरह autonomous mode में भी अंतर व्यापक रहा। Mythos ने 9.55 अंक बनाए रखे, जबकि GPT-5.5 via Codex 4.30 तक ही पहुंच सका। स्रोत कहता है कि किसी अन्य परीक्षण किए गए model ने full code execution हासिल नहीं की। यदि ये आंकड़े व्यापक scrutiny में भी टिकते हैं, तो वे सुझाव देते हैं कि offensive cyber tasks में model capability का अग्रणी किनारा बाकी क्षेत्र से सार्वजनिक मूल्यांकनों की तुलना में अधिक तेज़ी से अलग हो रहा है।
लागत व्याख्या बदल देती है
यह benchmark किसी सरल विजेता की ओर इशारा नहीं करता। The Decoder के स्रोत पाठ में इस बात पर जोर दिया गया है कि Mythos का प्रदर्शन भारी कीमत पर आया। 122 episodes में Mythos का पूरा run कथित तौर पर लगभग $36,428 का था, जबकि GPT-5.5 ने 123 episodes लगभग $3,075 में चलाए। यानी लगभग बारह गुना अंतर।
यह महत्वपूर्ण है क्योंकि क्षमता को लागत संदर्भ के बिना पढ़ना भ्रामक हो सकता है। कोई model बहुत बेहतर प्रदर्शन करे, लेकिन उसके लिए बहुत अधिक खर्च चाहिए, तो वह हमेशा अधिक महत्वपूर्ण कहानी नहीं होता, खासकर अगर सस्ता rival अधिक compute या लंबे runtime से सुधार कर सके। लेख ठीक इसी संभावना की ओर इशारा करता है, और सुझाता है कि OpenAI अधिक compute आवंटित करके अंतर कम कर सकता है।
V8 एक महत्वपूर्ण लक्ष्य क्यों है
V8 पर ध्यान दांव को बढ़ाता है। स्रोत नोट करता है कि V8 Chrome, Edge, Node.js, और Cloudflare Workers को शक्ति देता है, जिससे यह आधुनिक इंटरनेट के सबसे महत्वपूर्ण software engines में से एक बन जाता है। इसलिए वास्तविक V8 vulnerabilities से जुड़ा benchmark किसी toy environment या puzzle-style चुनौती की तुलना में व्यावहारिक सुरक्षा प्रभावों के बारे में अधिक बताता है।
यही कारण है कि tiered design उल्लेखनीय है। यह किसी समस्या को ढूंढने और उसे हथियार बनाने के बीच के अंतर को दर्शाता है। सुरक्षा कार्य में यही अंतर सब कुछ है। ऐसा agent जो bug discovery से सफल exploitation तक के चरणों को reason कर सकता है, वह उस agent से बिल्कुल अलग risk category में काम कर रहा है जो केवल संदिग्ध code patterns को इंगित कर सकता है।
मानव-स्तरीय तुलना में सावधानी जरूरी है
स्रोत पाठ के अनुसार, ExploitBench के सह-लेखक Seunghyun Lee, जो 20 से अधिक reported browser vulnerabilities वाले अनुभवी security researcher हैं, ने परिणामों की समीक्षा की और Mythos को एक सक्षम human browser security researcher के समकक्ष माना। यह एक तीखा दावा है, लेकिन इसे सावधानी से पढ़ना चाहिए। Benchmarks वास्तविक क्षमता को उजागर कर सकते हैं, फिर भी विश्वसनीयता, पुनरुत्पादनशीलता, और structured evaluation environment के बाहर models कैसा प्रदर्शन करते हैं, ऐसे प्रश्न खुले रह सकते हैं।
फिर भी, दिशा को नज़रअंदाज़ करना मुश्किल है। यह benchmark सुझाता है कि कम से कम कुछ frontier AI systems किसी प्रमुख software engine में end-to-end exploit development के करीब आ रहे हैं। अब बहस अधिकतर degree, cost, और operating constraints की है, न कि इस बात की कि trajectory मौजूद है या नहीं।
नीतिनिर्माताओं, platform operators, और labs के लिए, यह चर्चा को बदल देता है। सबसे महत्वपूर्ण सवाल अब शायद यह नहीं है कि models offensive cyber work में मदद कर सकते हैं या नहीं, बल्कि यह है कि वह मदद कितनी जल्दी सस्ती, अधिक autonomous, और अधिक व्यापक हो जाती है।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com


