एक फ्रंटियर मॉडल को पहले रक्षा के लिए तैनात किया जा रहा है

Anthropic का कहना है कि वह एक नई AI मॉडल के प्रीव्यू संस्करण को तकनीकी और सुरक्षा संगठनों के एक गठबंधन को दे रहा है, यह एक साइबरसुरक्षा प्रयास का हिस्सा है जिसका उद्देश्य हमलावरों से पहले महत्वपूर्ण सॉफ़्टवेयर अवसंरचना की कमजोरियों को ढूँढना है।

Project Glasswing नाम की यह पहल Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft और Palo Alto Networks जैसी कंपनियों और संगठनों को एक साथ लाती है। Anthropic ने कहा कि मॉडल का उपयोग रक्षात्मक सुरक्षा कार्य के लिए किया जाएगा और निष्कर्षों को पूरे उद्योग में व्यापक रूप से साझा किया जाएगा।

यह कदम AI विकास के केंद्र में बढ़ते तनाव को दर्शाता है। अधिक सक्षम मॉडल आक्रामक साइबर दुरुपयोग के जोखिम को बढ़ा सकते हैं, लेकिन वे रक्षकों को ऐसी कमजोरियाँ खोजने के लिए नए उपकरण भी दे सकते हैं, जिनके स्तर और गहराई तक पारंपरिक परीक्षण पहुँचना कठिन होता है।

Anthropic के अनुसार मॉडल क्या कर सकता है

रिपोर्ट के अनुसार, Anthropic ने कोडिंग और तर्क कार्यों के लिए “Claude Mythos Preview” कहे गए मॉडल को प्रशिक्षित करते समय मजबूत सुरक्षा अनुप्रयोग पाए। कंपनी ने कहा कि मॉडल ने हाल के हफ्तों में ही हजारों zero-day कमजोरियों की पहचान कर ली है, जिनमें से कई गंभीर हैं।

Anthropic द्वारा बताए गए उदाहरणों में OpenBSD में 27 साल पुराना एक बग और व्यापक रूप से उपयोग किए जाने वाले वीडियो सॉफ़्टवेयर में 16 साल पुरानी एक खामी शामिल थी, जिसे स्वचालित परीक्षण उपकरण नहीं ढूँढ पाए थे। कंपनी ने 1,000 ओपन-सोर्स रिपॉजिटरी के खिलाफ आंतरिक परीक्षणों का भी वर्णन किया, जिनमें Mythos Preview ने पहले के मॉडलों की तुलना में काफी अधिक गंभीर क्रैश परिणाम दिए।

Anthropic के विवरण में, पिछली पीढ़ी ने कई निचले स्तर के क्रैश और केवल एक tier 3 क्रैश उत्पन्न किया, जबकि Mythos Preview ने tier 1 और 2 में 595 क्रैश, tier 3 और 4 में कुछ क्रैश, और 10 पूरी तरह पैच किए गए लक्ष्यों पर पूर्ण control-flow hijack उत्पन्न किए। Anthropic ने कहा कि मॉडल को विशेष रूप से उन exploits को करने के लिए प्रशिक्षित नहीं किया गया था और यह क्षमता कोडिंग, तर्क और स्वायत्त व्यवहार में व्यापक सुधारों से उभरी।

महत्वपूर्ण सॉफ़्टवेयर पर फोकस क्यों है

Project Glasswing महत्वपूर्ण सॉफ़्टवेयर अवसंरचना पर केंद्रित है क्योंकि व्यापक रूप से उपयोग होने वाली नींवों में खामियाँ सरकारों, व्यवसायों और ओपन-सोर्स पारिस्थितिकी तंत्र में लहरें पैदा कर सकती हैं। Anthropic ने कहा कि वह शुरुआती साझेदार समूह से आगे बढ़कर लगभग 40 अतिरिक्त संगठनों तक पहुँच बढ़ा रहा है जो महत्वपूर्ण सॉफ़्टवेयर बनाते या बनाए रखते हैं।

कंपनी ओपन-सोर्स सुरक्षा संगठनों को मॉडल उपयोग क्रेडिट के रूप में 10 करोड़ डॉलर तक और प्रत्यक्ष दान के रूप में 40 लाख डॉलर देने की भी प्रतिबद्धता जता रही है। यह संयोजन केवल मॉडल की क्षमता साबित करने का नहीं, बल्कि उस सॉफ़्टवेयर के चारों ओर एक रक्षात्मक वर्कफ़्लो बनाने का संकेत देता है जो डिजिटल अर्थव्यवस्था के बड़े हिस्से को आधार देता है।

यदि मॉडल उन कमजोरियों की विश्वसनीय रूप से पहचान कर सकता है जो परिपक्व कोडबेस के भीतर वर्षों से बनी हुई हैं, तो उसका मूल्य सबसे अधिक वहीं हो सकता है जहाँ सॉफ़्टवेयर सबसे पुराना, सबसे भरोसेमंद, और मौजूदा उपकरणों से व्यापक रूप से ऑडिट करने में सबसे कठिन है।

मज़बूत AI की दोधारी प्रकृति

यह घोषणा ऐसे समय में आई है जब यह चिंता बढ़ रही है कि उन्नत मॉडल साइबर हमलों को और अधिक परिष्कृत बना सकते हैं। Anthropic ने इस तनाव को सीधे स्वीकार किया, यह तर्क देते हुए कि फ्रंटियर क्षमताएँ आने वाले महीनों में काफी आगे बढ़ सकती हैं और यदि रक्षकों को साथ चलना है तो उन्हें तेज़ी से कार्रवाई करनी होगी।

यह framing महत्वपूर्ण है। Anthropic मॉडल को केवल सुरक्षा शोधकर्ताओं के लिए उत्पादकता सहायक के रूप में प्रस्तुत नहीं कर रहा है। वह इसे आक्रामक और रक्षात्मक क्षमता के बीच एक दौड़ का हिस्सा बता रहा है, जिसमें देरी हमलावरों के पक्ष में जा सकती है।

रिलीज़ की संरचना में एक निहित नीतिगत तर्क भी है। प्रीव्यू सीमित है, सामान्य उपलब्ध नहीं है, और एक परिभाषित सुरक्षा मिशन से जुड़ा है। इससे लगता है कि Anthropic उच्च-क्षमता प्रणालियों के लिए एक नियंत्रित तैनाती पथ दिखाने की कोशिश कर रहा है, ऐसे क्षेत्रों में जहाँ लाभ वास्तविक है लेकिन दुरुपयोग की संभावना भी असामान्य रूप से अधिक है।

AI सुरक्षा तैनाती का उभरता मॉडल

यह पहल Anthropic की अपनी प्रणाली से भी आगे महत्वपूर्ण साबित हो सकती है। यदि Project Glasswing सफल होता है, तो यह इस बात का खाका बन सकता है कि फ्रंटियर लैब्स संवेदनशील क्षमताएँ कैसे पेश करती हैं: सीमित पहुँच, जांचे-परखे साझेदार, मिशन-सीमित उपयोग, और यह अपेक्षा कि परिणामों को जमा करने के बजाय बाहर साझा किया जाए।

Anthropic ने यह भी कहा कि वह मॉडल की आक्रामक और रक्षात्मक साइबर क्षमताओं के बारे में अमेरिकी सरकारी अधिकारियों के साथ निरंतर चर्चा में रहा है। यह विवरण उस दूसरी सच्चाई की ओर इशारा करता है जो अब इस क्षेत्र को आकार दे रही है: साइबरसुरक्षा अब उन्नत AI लैब्स के लिए एक गौण अनुप्रयोग नहीं रह गई है। यह तेज़ी से उन मुख्य परीक्षणों में से एक बन रही है जिनसे तय होगा कि इन प्रणालियों को कैसे शासित, मूल्यांकित और महत्वपूर्ण अवसंरचना में एकीकृत किया जाएगा।

अभी के लिए, कंपनी का दावा स्पष्ट है। उसका मानना है कि Mythos-श्रेणी की क्षमता सॉफ़्टवेयर रक्षा को ठोस रूप से मजबूत कर सकती है, और वह तकनीक की कुछ सबसे बड़ी संस्थाओं के साथ साझेदारी में इस प्रस्ताव को साबित करने की कोशिश कर रही है।

आगे क्या देखना है

अगला चरण शीर्षक से अधिक महत्वपूर्ण होगा। मुख्य प्रश्न यह हैं कि क्या साझेदार संगठन वास्तविक कार्यप्रवाहों में Anthropic के दावों की पुष्टि करेंगे, क्या खोजी गई कमजोरियाँ प्रभावी ढंग से सुधारी और सार्वजनिक की जाएँगी, और क्या क्षमताएँ बेहतर होने के साथ उसी श्रेणी के मॉडल को रक्षात्मक उपयोग के लिए संरेखित रखा जा सकता है।

AI कंपनियाँ पिछले दो वर्षों से तर्क देती रही हैं कि उनकी प्रणालियाँ कोडिंग को बदल देंगी। Project Glasswing एक संकीर्ण, कठिन प्रस्ताव की परीक्षा लेता है: क्या वे सॉफ़्टवेयर सुरक्षा को इस तरह बदल सकते हैं कि विरोधियों के पकड़ने से पहले जोखिम में सार्थक कमी आए।

यह लेख Fast Company की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें