अधिक धोकादायक capability frontier चे benchmark

कार्नेगी मेलॉन विद्यापीठातील संशोधकांनी एक नवीन benchmark सादर केला आहे, ज्याचा उद्देश AI agents Google च्या V8 JavaScript engine मधील प्रत्यक्ष vulnerabilities चा वापर करण्यात किती पुढे जाऊ शकतात हे तपासणे आहे. The Decoder मधील दिलेल्या स्रोत मजकुरानुसार, offensive security मधील frontier model वर्तनाचे अधिक ठोस चित्र मिळते: काही systems आता फक्त bugs ओळखणे किंवा crashes ट्रिगर करणे इतक्यावर थांबत नाहीत, तर पूर्ण code execution कडे जात आहेत.

हा benchmark महत्त्वाचा आहे कारण तो परिणामांना pass-fail चाचणीत न अडकवता टप्प्यांमध्ये कार्यक्षमता मोजतो. स्रोताप्रमाणे, framework agents ला पाच tiers मध्ये स्कोअर करतो, ज्याचा शेवट target system वर arbitrary code execution असा होतो. ही रचना autonomous किंवा semi-autonomous model exploit-development workflow मध्ये प्रत्यक्षात काय करू शकतो याचे अधिक वास्तववादी चित्र देते.

Claude Mythos पुढे, GPT-5.5 मागे

रिपोर्ट केलेला मुख्य निष्कर्ष म्हणजे चाचणीत दोन आघाडीच्या systems मध्ये मोठी दरी. Anthropic चे Claude Mythos Preview, कधीमधी human nudges सह, सरासरी 9.90 / 16 गुणांपर्यंत पोहोचले आणि 41 vulnerabilities पैकी 21 वर top tier गाठले. OpenAI चे GPT-5.5 5.51 गुणांवर राहिले आणि त्यापैकी फक्त दोन vulnerabilities वर top tier गाठले.

पूर्णपणे autonomous mode मध्येही दरी मोठीच राहिली. Mythos ने 9.55 गुणांसह फारसा घसरणीचा अनुभव घेतला नाही, तर GPT-5.5 via Codex 4.30 वरच थांबले. स्रोत म्हणतो की इतर कोणत्याही परीक्षण केलेल्या model ने full code execution साध्य केले नाही. हे आकडे व्यापक scrutiny मध्येही टिकले, तर offensive cyber tasks मधील model capability ची आघाडी बाकी क्षेत्रापासून सार्वजनिक evaluations ने दाखवलेल्या तुलनेत अधिक वेगाने वेगळी होत असल्याचे सूचित होते.

खर्च अर्थ लावण्याची पद्धत बदलतो

हा benchmark सोपा विजेता दाखवत नाही. The Decoder च्या स्रोत मजकुरात नमूद केल्याप्रमाणे Mythos ची कामगिरी मोठ्या खर्चात आली. 122 episodes मध्ये Mythos चा पूर्ण run सुमारे $36,428 खर्चाचा होता, तर GPT-5.5 ने 123 episodes सुमारे $3,075 मध्ये चालवले. म्हणजेच सुमारे बारा पट फरक.

हे महत्त्वाचे आहे, कारण capability ला cost context शिवाय पाहणे दिशाभूल करणारे ठरू शकते. एखादा model खूप चांगला काम करत असेल पण त्यासाठी प्रचंड खर्च लागत असेल, तर कमी खर्चिक प्रतिस्पर्धी जास्त compute किंवा जास्त runtime वापरून फरक कमी करू शकेल, असे झाल्यास ती नेहमीच सर्वात महत्त्वाची कथा नसते. लेख नेमकी ही शक्यता दर्शवतो, आणि OpenAI अधिक compute देऊन फरक कमी करू शकते असे सूचित करतो.

V8 हे महत्त्वाचे लक्ष्य का आहे

V8 वर लक्ष केंद्रित केल्याने stakes वाढतात. स्रोत नोंदतो की V8 Chrome, Edge, Node.js, आणि Cloudflare Workers ला power देते, त्यामुळे ते आधुनिक इंटरनेटमधील सर्वात महत्त्वाच्या software engines पैकी एक आहे. म्हणूनच, प्रत्यक्ष V8 vulnerabilities शी जोडलेला benchmark toy environment किंवा puzzle-style challenge पेक्षा प्रत्यक्ष सुरक्षा परिणामांबद्दल अधिक सांगतो.

यामुळेच tiered design लक्षवेधी आहे. ते समस्या शोधणे आणि तिला weaponize करणे यातील फरक दाखवते. सुरक्षा कामात हा फरकच सर्वकाही आहे. bug discovery पासून यशस्वी exploitation पर्यंत reasoning करू शकणारा agent, फक्त संशयास्पद code patterns दाखवणाऱ्या agent पेक्षा पूर्णपणे वेगळ्या risk category मध्ये कार्य करतो.

मानवी-स्तर तुलना करताना काळजी हवी

स्रोत मजकुरानुसार, 20 पेक्षा जास्त reported browser vulnerabilities असलेला अनुभवी security researcher आणि ExploitBench सहलेखक Seunghyun Lee यांनी निकालांचा आढावा घेऊन Mythos ला कुशल human browser security researcher च्या तोडीचा मानले. हा एक प्रभावी दावा आहे, पण तो काळजीपूर्वक वाचला पाहिजे. Benchmarks वास्तविक क्षमता दाखवू शकतात, तरीही reliability, reproducibility, आणि संरचित मूल्यांकन वातावरणाबाहेर models कसे वागतात, असे प्रश्न खुले राहतात.

तरीही, दिशा दुर्लक्ष करणे कठीण आहे. हा benchmark सूचित करतो की किमान काही frontier AI systems एका प्रमुख software engine मध्ये end-to-end exploit development च्या जवळ जात आहेत. आता चर्चा प्रामुख्याने degree, cost, आणि operating constraints यांवर आहे, trajectory आहे का यावर नाही.

धोरणकर्ते, platform operators, आणि labs साठी हे संभाषण बदलते. आता सर्वात महत्त्वाचा प्रश्न models offensive cyber work मध्ये मदत करू शकतात का असा नसून, ती मदत किती लवकर स्वस्त, अधिक autonomous, आणि अधिक व्यापक उपलब्ध होते, हाच आहे.

हा लेख The Decoder च्या अहवालावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com