OpenAI ने सुरक्षा लक्ष एकल प्रॉम्प्टवरून बदलत्या संदर्भाकडे वळवले
संवेदनशील संभाषणांमध्ये जोखीम अधिक चांगल्या प्रकारे ओळखण्यासाठी, चेतावणीची चिन्हे कालांतराने कशी उगम पावतात हे पाहून ChatGPT अद्ययावत केले आहे, असे OpenAI म्हणते. कंपनीचे निवेदन आत्महत्या, स्वतःला इजा, आणि इतरांना इजा अशा गंभीर परिस्थितींवर केंद्रित आहे; कारण हानिकारक हेतू नेहमी एका संदेशात दिसतोच असे नाही आणि संभाषणाला क्रम म्हणून पाहिल्यावरच तो स्पष्ट होऊ शकतो, असा तिचा युक्तिवाद आहे.
हा बदल संवादात्मक AI समोरील एका मूलभूत सुरक्षा आव्हानाचे प्रतिबिंब आहे. वेगळे पाहिले तर सामान्य वाटणारी विनंती, आधीच्या त्रासदायक संकेतांसोबत, वाढत्या आक्रमक भाषेसह, किंवा धोकादायक तपशीलांसाठी वारंवार केलेल्या विनंत्यांसह वेगळा अर्थ धारण करू शकते. OpenAI म्हणते की हे नवीन अपडेट्स ChatGPT ला त्या व्यापक संदर्भाचा वापर करून असुरक्षित सामग्री नाकारावी का, परिस्थिती शांत करावी का, किंवा वापरकर्त्याला मदतीकडे वळवावे का, हे ठरवण्यास मदत करण्यासाठी आहेत.
OpenAI च्या मते काय बदलले आहे
कंपनीनुसार, सूक्ष्म किंवा बदलत जाणारे संकेत ओळखण्यासाठी ChatGPT मध्ये आता सुधारित प्रशिक्षण आणि धोरणे आहेत, जी वाढत्या जोखमीकडे निर्देश करतात. धोका दिसू लागल्यावर अधिक सावध राहणे आणि बहुतांश निरुपद्रवी संभाषणांमध्ये अनावश्यक अतिप्रतिक्रिया टाळणे, हे या बदलाचे दुहेरी उद्दिष्ट आहे, असे OpenAI सांगते.
- पूर्वीच्या संदेशांचा संदर्भ आता नंतरच्या सुरक्षा निर्णयांवर परिणाम करू शकतो
- ही प्रणाली दुर्मीळ पण अत्यंत महत्त्वाच्या परिस्थितींसाठी लक्ष्यित आहे
- प्रतिक्रियांमध्ये परिस्थिती शांत करणे, हानिकारक तपशील नाकारणे, किंवा सुरक्षित पर्यायांकडे वळवणे यांचा समावेश असू शकतो
हे काम अनेक वर्षांच्या प्रशिक्षण, मूल्यांकन, मॉनिटरिंग प्रणाली, आणि मानसिक आरोग्य व सुरक्षा तज्ज्ञांसोबत दोन वर्षांहून अधिक काळ केलेल्या सहकार्यावर उभे आहे, असे OpenAI म्हणते. हा अपडेट कंपनीच्या व्यापक “safe completion” दृष्टिकोनाचा भागही आहे, ज्याचा हेतू विनंतीतील असुरक्षित भाग नाकारून, जिथे सुरक्षित असेल तिथे उपयुक्त राहणे हा आहे.
प्रत्यक्षात संदर्भ का महत्त्वाचा आहे
संभाषणात्मक प्रणालींचे बहुतेक वेळा संदेशानुसार मूल्यांकन केले जाते, जरी जोखीम जमा होऊ शकते, त्यामुळे कंपनीचे हे मांडणे महत्त्वाचे आहे. एखादी व्यक्ती अस्पष्ट किंवा वरवर साध्या वाटणाऱ्या प्रश्नांनी सुरुवात करून हळूहळू आपला हेतू उघड करू शकते. आवश्यक असेल तेव्हा त्या संकेतांना एकत्र जोडण्यास मॉडेलला मदत करण्यासाठी हे अपडेट्स डिझाइन केले आहेत, असे OpenAI म्हणते.
या डिझाइन उद्दिष्टाचे दोन्ही बाजूंनी परिणाम होतात. उदयोन्मुख संदर्भ चुकवणारे मॉडेल उच्च-जोखीम परिस्थितीत खूपच सैल प्रतिसाद देऊ शकते. संदर्भाचा अति-अर्थ लावणारे मॉडेल सामान्य वापरात कठोर आणि निरुपयोगी बनू शकते. लोक दररोज करतात त्या लाखो सामान्य संवादांपासून आणि अधिक सावधगिरी आवश्यक असलेल्या अत्यंत दुर्मीळ प्रकरणांपासून फरक ओळखणे हे आमचे उद्दिष्ट आहे, असे OpenAI म्हणते.
तीव्र हानीच्या परिस्थितींवर लक्ष
सध्याचे काम प्रत्येक कठीण किंवा भावनिकदृष्ट्या भारलेल्या संवादाऐवजी तीव्र प्रकरणांवर केंद्रित आहे, असे OpenAI म्हणते. कंपनी विशेषतः आत्महत्या, स्वतःला इजा, आणि इतरांना इजा होण्याच्या परिस्थितींना या अपडेटचे मुख्य लक्ष्य मानते. अशा प्रकरणांमध्ये, संदर्भात पाहिल्यावर निरुपद्रवी विनंत्या आणि अधिक जोखीम सूचित करणाऱ्या विनंत्या यातील फरक ChatGPT अधिक चांगल्या प्रकारे ओळखू शकतो, असे ती म्हणते.
हा फरक महत्त्वाचा आहे, कारण अनेक संवेदनशील संभाषणे स्वभावतः असुरक्षित नसतात. वापरकर्ते मानसिक आरोग्य, संकट प्रतिबंध, किंवा वैयक्तिक त्रास यावर योग्य पद्धतीने चर्चा करू शकतात. हे संभाषण व्यापकपणे रोखणे हा OpenAI चा हेतू नाही; संदर्भाने संवाद धोक्याच्या दिशेने वळत असल्याचे सूचित केल्यावर अधिक काळजीपूर्वक प्रतिसाद देणे, हेच उद्दिष्ट आहे.
विश्वास आणि प्रशासनावर परिणाम
हा अपडेट स्थिर प्रणालींपेक्षा संवादात्मक सुरक्षा प्रणालींकडे जाणाऱ्या मोठ्या उद्योग प्रवाहाचा भाग आहे. पारंपरिक संरक्षक यंत्रणा अनेकदा ट्रिगर वाक्यांवर किंवा अतिशय स्थानिक नियमांवर अवलंबून असतात. OpenAI च्या घोषणेत अधिक stateful सुरक्षा मॉडेलचा संकेत आहे, जिथे प्रणाली संभाषण कसे पुढे जाते यावर लक्ष ठेवते आणि त्यानुसार आपले वर्तन बदलते.
अशी पद्धत हानी-प्रतिबंधाच्या दृष्टीने असमान महत्त्व असलेल्या edge cases मध्ये कार्यक्षमता वाढवू शकते. त्याच वेळी, पारदर्शकता आणि सातत्याबद्दलचे परिचित प्रश्नही निर्माण होतात. सुरक्षा निर्णय घेण्यासाठी मॉडेल जितका अधिक संचित संदर्भ वापरते, तितके ते निर्णय विश्वासार्ह राहतील आणि अति-विस्तृत सावधगिरीत बदलणार नाहीत याची खात्री करणे अधिक महत्त्वाचे बनते. OpenAI च्या निवेदनात नवीन संख्यात्मक निष्कर्ष दिलेले नाहीत, पण दीर्घकालीन संदर्भ हा दुर्मीळ, उच्च-जोखीम परिस्थिती नीट हाताळण्यासाठी आवश्यक आहे, हे कंपनीला स्पष्ट दिसते.
संवादात्मक सुरक्षितता कुठे चालली आहे याचे संकेत
संवाद प्रणालींमधील AI सुरक्षिततेबाबत OpenAI चे हे निवेदन परिपक्व दृष्टीकोन दर्शवते. मुद्दा आता केवळ एवढाच नाही की मॉडेल स्पष्टपणे धोकादायक विनंती नाकारू शकते का. प्रश्न असा आहे की जोखीम हळूहळू आकार घेत आहे हे, एकही संदेश स्वतःहून पुरेसा नसला तरी, मॉडेल ओळखू शकते का.
ही क्षमता सुधारली तर सुरक्षा प्रतिसाद अधिक प्रमाणबद्ध आणि अधिक लक्ष्यित होऊ शकतात. प्रत्येक अस्पष्ट विधानाला समान जोखीम मानण्याऐवजी, संभाषण स्वतःच सावधगिरी वाढवण्याचा पुरावा देते अशा प्रकरणांसाठी प्रणाली आपले सर्वात मजबूत हस्तक्षेप राखून ठेवू शकते. OpenAI हा अपडेट त्या दिशेने एक पाऊल म्हणून मांडत आहे, आणि संदर्भ अचूक समजणे सर्वात महत्त्वाचे असलेल्या दुर्मीळ प्रकरणांवर अरुंद लक्ष केंद्रित करत आहे.
हा लेख OpenAI च्या अहवालावर आधारित आहे. मूळ लेख वाचा.
Originally published on openai.com
