AI मॉडलों को सही निर्देशों का पालन करना सिखाना

OpenAI ने IH-Challenge नामक एक नई प्रशिक्षण पद्धति पर शोध प्रकाशित किया है, जिसे तैनात AI प्रणालियों की सबसे लगातार समस्याओं में से एक को हल करने के लिए डिज़ाइन किया गया है: मॉडलों को डेवलपर्स, ऑपरेटरों और सत्यापित उपयोगकर्ताओं जैसे विश्वसनीय पक्षों के निर्देशों को, वेब सामग्री या टूल आउटपुट जैसे अविश्वसनीय चैनलों से आने वाले संभावित शत्रुतापूर्ण निर्देशों पर भरोसेमंद रूप से प्राथमिकता देना सिखाना।

यह काम उस समस्या को संबोधित करता है जिसे AI सुरक्षा समुदाय instruction hierarchy problem कहता है। एक एजेंट के रूप में काम करने वाला बड़ा भाषा मॉडल एक साथ कई स्रोतों से निर्देश प्राप्त कर सकता है: डेवलपर से system prompt, उपयोगकर्ता से निर्देश, और वेब या बाहरी टूल्स से प्राप्त सामग्री। जब ये निर्देश आपस में टकराते हैं, तो मॉडल को यह तय करने का एक सिद्धांत-आधारित तरीका चाहिए कि किसका पालन करना है।

Instruction Hierarchy को बनाए रखना इतना कठिन क्यों साबित हुआ

सिद्धांत रूप से समाधान सरल है: system prompt को हमेशा user input पर प्राथमिकता मिलनी चाहिए, और user input को बाहरी स्रोतों की सामग्री पर। व्यवहार में, मानव फीडबैक पर मुख्यतः प्रशिक्षित भाषा मॉडल शत्रुतापूर्ण दबाव के तहत इन hierarchies को बनाए रखने में आश्चर्यजनक रूप से कमजोर साबित हुए हैं।

हमलावरों ने इस कमजोरी का व्यापक रूप से फायदा उठाया है। Prompt injection हमले, जहां किसी वेबपेज या दस्तावेज़ में छिपा दुर्भावनापूर्ण पाठ AI को उसके system prompt को अनदेखा करने और नए निर्देशों का पालन करने को कहता है, ने दर्जनों वास्तविक-विश्व तैनातियों में AI agents को प्रभावित किया है। ये हमले अक्सर बेहद सरल होते हैं, और अन्यथा निर्दोष दिखने वाली सामग्री में ignore all previous instructions जैसे वाक्यांशों का उपयोग करते हैं।

IH-Challenge प्रशिक्षण उदाहरण उत्पन्न करके इस समस्या से निपटता है, जिन्हें खास तौर पर instruction hierarchy अनुपालन का stress-test करने के लिए डिज़ाइन किया गया है। dataset में ऐसे परिदृश्य शामिल हैं जहां कम-विश्वास स्रोतों से आने वाले शत्रुतापूर्ण निर्देश उच्च-विश्वास system prompts का सीधे विरोध करते हैं, जिससे मॉडल को इन हेरफेर प्रयासों को पहचानना और उनका प्रतिरोध करना सिखाया जाता है।

सुधार के तीन स्तंभ

OpenAI तीन अलग-अलग आयामों में सुधार की रिपोर्ट करता है। पहला, instruction hierarchy adherence: IH-Challenge के साथ प्रशिक्षित मॉडल टकरावपूर्ण user instructions मिलने पर system prompt निर्देशों का पालन करने की अधिक संभावना रखते हैं। दूसरा, safety steerability: ऑपरेटर OpenAI की नीतियों द्वारा स्थापित सीमाओं के भीतर मॉडल व्यवहार को अधिक भरोसेमंद रूप से अनुकूलित कर सकते हैं। तीसरा, prompt injection resistance: direct और indirect दोनों रूपों में injection हमलों के प्रति मॉडल की संवेदनशीलता में काफी कमी दिखती है।

शोध यह भी पाता है कि IH-Challenge प्रशिक्षण, प्रशिक्षण में उपयोग किए गए विशिष्ट परिदृश्यों से आगे तक सामान्यीकृत होता है। मॉडल trust levels का अधिक मज़बूत आंतरिक निरूपण विकसित करते प्रतीत होते हैं, और प्रशिक्षण के दौरान न देखे गए नए attack patterns पर सीखी गई hierarchy लागू करते हैं।

AI Agent तैनाती के लिए निहितार्थ

यह काम एक महत्वपूर्ण समय पर सामने आता है। जैसे-जैसे AI agents को email, browsers, code execution environments, और enterprise software तक पहुंच मिलती है, सफल prompt injection हमलों के परिणाम शर्मनाक से लेकर विनाशकारी तक बढ़ जाते हैं। एक ऐसा agent जिसे किसी दुर्भावनापूर्ण वेबपेज के माध्यम से hijack किया जा सके, संवेदनशील डेटा लीक कर सकता है, credentials exfiltrate कर सकता है, या बड़े पैमाने पर विनाशकारी कार्रवाइयाँ कर सकता है।

IH-Challenge एक बड़ी पहेली का केवल एक हिस्सा है। प्रशिक्षण स्तर पर तकनीकी defenses को architectural safeguards के साथ जोड़ना होगा, जैसे sandboxed execution environments, उच्च-जोखिम कार्रवाइयों के लिए confirmation gates, और tool permissions की सावधानीपूर्वक सीमा-निर्धारण, ताकि सार्थक सुरक्षा मिल सके। लेकिन मॉडल के भीतर ही निर्मित एक आधार-स्तरीय रक्षा के रूप में, यह आधार-स्तर को काफी ऊपर उठाता है।

यह लेख OpenAI की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on openai.com