OpenAI ने सुरक्षा का ध्यान एकल प्रॉम्प्ट से बदलकर विकसित होते संदर्भ पर केंद्रित किया
OpenAI का कहना है कि उसने ChatGPT को अपडेट किया है ताकि प्रणाली संवेदनशील बातचीतों में जोखिम को बेहतर ढंग से पहचान सके, और यह देख सके कि चेतावनी संकेत समय के साथ कैसे उभरते हैं। कंपनी की घोषणा तीव्र स्थितियों पर केंद्रित है, जिनमें आत्महत्या, आत्म-क्षति, और दूसरों को नुकसान शामिल हैं, और उसका तर्क है कि हानिकारक इरादा हमेशा एक ही संदेश में स्पष्ट नहीं होता; वह तभी साफ़ हो सकता है जब किसी बातचीत को क्रम के रूप में देखा जाए।
यह बदलाव संवादात्मक AI के लिए एक मूलभूत सुरक्षा चुनौती को दर्शाता है। जो अनुरोध अलग से देखने पर सामान्य लगता है, उसका अर्थ पहले के संकट संकेतों, बढ़ती हुई भाषा, या खतरनाक विवरणों के लिए बार-बार किए गए अनुरोधों के साथ अलग हो सकता है। OpenAI का कहना है कि नए अपडेट ChatGPT को उस व्यापक संदर्भ का उपयोग करने में मदद करने के लिए बनाए गए हैं, ताकि वह तय कर सके कि कब असुरक्षित सामग्री को अस्वीकार करना है, स्थिति को शांत करना है, या उपयोगकर्ता को सहायता की ओर मोड़ना है।
OpenAI के अनुसार क्या बदला है
कंपनी के अनुसार, ChatGPT में अब सूक्ष्म या विकसित होते संकेतों को पहचानने के लिए बेहतर प्रशिक्षण और नीतियां हैं, जो बढ़ते जोखिम की ओर इशारा करती हैं। OpenAI का कहना है कि उद्देश्य दोहरा है: जब खतरे के संकेत दिखाई दें तो अधिक सावधानी बरतना, और अधिकांश निर्दोष बातचीतों में अनावश्यक अति-प्रतिक्रिया से बचना।
- पिछले संदेशों का संदर्भ अब बाद के सुरक्षा निर्णयों को प्रभावित कर सकता है
- यह प्रणाली दुर्लभ लेकिन अत्यधिक महत्वपूर्ण स्थितियों के लिए बनाई गई है
- प्रतिक्रियाओं में स्थिति को शांत करना, हानिकारक विवरणों से इनकार, या सुरक्षित विकल्पों की ओर पुनर्निर्देशन शामिल हो सकता है
OpenAI का कहना है कि यह काम वर्षों के प्रशिक्षण, मूल्यांकन, निगरानी प्रणालियों, और मानसिक स्वास्थ्य तथा सुरक्षा विशेषज्ञों के साथ दो वर्षों से अधिक के सहयोग पर आधारित है। कंपनी इस अपडेट को अपने व्यापक “safe completion” दृष्टिकोण के भीतर भी रखती है, जिसका उद्देश्य अनुरोध के असुरक्षित हिस्सों को अस्वीकार करना है, जबकि जहाँ सुरक्षित हो वहाँ सहायक बने रहना है।
व्यावहारिक रूप से संदर्भ क्यों महत्वपूर्ण है
कंपनी का यह दृष्टिकोण महत्वपूर्ण है, क्योंकि संवादात्मक प्रणालियों का अक्सर संदेश-दर-संदेश मूल्यांकन किया जाता है, जबकि जोखिम संचयी हो सकता है। कोई व्यक्ति अस्पष्ट या दिखने में सामान्य सवालों से शुरू कर सकता है और धीरे-धीरे अपना इरादा प्रकट कर सकता है। OpenAI का कहना है कि ये अपडेट मॉडल को आवश्यक होने पर उन संकेतों को जोड़ने में मदद करने के लिए बनाए गए हैं।
यह डिज़ाइन लक्ष्य दो तरफ़ा है। जो मॉडल उभरते संदर्भ को चूक जाता है, वह उच्च जोखिम वाली स्थितियों में बहुत ढीला जवाब दे सकता है। जो मॉडल संदर्भ को ज़रूरत से ज़्यादा पढ़ता है, वह सामान्य उपयोग में कठोर और अनुपयोगी हो सकता है। OpenAI का कहना है कि उसका उद्देश्य लोगों की रोज़मर्रा की करोड़ों सामान्य बातचीतों और उन बहुत दुर्लभ मामलों के बीच अंतर करना है, जिनमें अधिक सावधानी उचित है।
तीव्र हानि वाली स्थितियों पर ध्यान
OpenAI का कहना है कि मौजूदा काम हर कठिन या भावनात्मक रूप से भारी संवाद के बजाय तीव्र मामलों पर केंद्रित है। कंपनी विशेष रूप से आत्महत्या, आत्म-क्षति, और दूसरों को नुकसान पहुँचाने वाली स्थितियों को इस अपडेट के मुख्य लक्ष्य के रूप में बताती है। ऐसे मामलों में, उसका कहना है कि ChatGPT संदर्भ में देखे जाने पर निर्दोष अनुरोधों और उन अनुरोधों के बीच बेहतर अंतर कर सकता है जो अधिक जोखिम का संकेत दे सकते हैं।
यह अंतर महत्वपूर्ण है, क्योंकि कई संवेदनशील बातचीतें स्वभावतः असुरक्षित नहीं होतीं। उपयोगकर्ता मानसिक स्वास्थ्य, संकट-रोकथाम, या व्यक्तिगत परेशानी पर वैध तरीकों से चर्चा कर सकते हैं। OpenAI का घोषित उद्देश्य इन बातचीतों को व्यापक रूप से रोकना नहीं, बल्कि तब अधिक सावधानी से प्रतिक्रिया देना है जब संदर्भ संकेत दे कि बातचीत खतरे की ओर बढ़ सकती है।
विश्वास और शासन पर प्रभाव
यह अपडेट एक बड़े उद्योग-आंदोलन का हिस्सा है, जो स्थिर प्रणालियों के बजाय संवादात्मक सुरक्षा प्रणालियों की ओर बढ़ रहा है। पारंपरिक सुरक्षा उपाय अक्सर ट्रिगर वाक्यांशों या अत्यधिक स्थानीय नियमों पर निर्भर करते हैं। OpenAI की घोषणा एक अधिक stateful सुरक्षा मॉडल का संकेत देती है, जिसमें प्रणाली यह ट्रैक करती है कि बातचीत कैसे आगे बढ़ रही है और उसी के अनुसार अपना व्यवहार समायोजित करती है।
यह दृष्टिकोण उन सीमा-मामलों में प्रदर्शन सुधार सकता है, जिनका हानि-निवारण के दृष्टिकोण से असमान रूप से बड़ा महत्व होता है। साथ ही, यह पारदर्शिता और स्थिरता से जुड़े परिचित प्रश्न भी उठाता है। जितना अधिक मॉडल सुरक्षा निर्णय लेने के लिए संचित संदर्भ का उपयोग करता है, उतना ही महत्वपूर्ण हो जाता है कि यह सुनिश्चित किया जाए कि वे निर्णय विश्वसनीय हों और अति-विस्तृत सावधानी में न बदलें। OpenAI के बयान में दिए गए पाठ में नए मात्रात्मक परिणाम नहीं हैं, लेकिन यह स्पष्ट करता है कि कंपनी दुर्लभ, उच्च-जोखिम स्थितियों को अच्छी तरह संभालने के लिए दीर्घकालिक संदर्भ को आवश्यक मानती है।
संवादात्मक सुरक्षा किस दिशा में जा रही है, इसका संकेत
OpenAI की घोषणा संवाद-आधारित प्रणालियों में AI सुरक्षा की परिपक्व होती समझ को रेखांकित करती है। मुद्दा अब केवल यह नहीं है कि मॉडल किसी स्पष्ट रूप से खतरनाक अनुरोध को अस्वीकार कर सकता है या नहीं। सवाल यह है कि क्या मॉडल यह पहचान सकता है कि जोखिम धीरे-धीरे आकार ले रहा है, भले ही कोई एक संदेश अकेले पर्याप्त न हो।
यदि यह क्षमता बेहतर होती है, तो सुरक्षा प्रतिक्रियाएँ अधिक संतुलित और अधिक लक्षित हो सकती हैं। हर अस्पष्ट कथन को समान रूप से जोखिमभरा मानने के बजाय, प्रणाली अपने सबसे सख्त हस्तक्षेप उन मामलों के लिए सुरक्षित रख सकती है जहाँ बातचीत स्वयं यह प्रमाण देती है कि सावधानी बढ़नी चाहिए। OpenAI इस अपडेट को उस दिशा में एक कदम के रूप में प्रस्तुत कर रहा है, और इसका संकीर्ण ध्यान उन दुर्लभ मामलों पर है जहाँ संदर्भ को सही समझना सबसे अधिक मायने रखता है।
यह लेख OpenAI की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on openai.com
