प्रॉम्प्टची मांडणी अजूनही AI विश्वासार्हता मोडते

NewsGuard च्या नव्या ऑडिटनुसार, जेव्हा वापरकर्ते खोटेपणाला स्थापित तथ्य म्हणून मांडतात किंवा त्या दाव्यांना मोठ्या प्रमाणावर पसरवण्यासाठी चॅटबॉटला मदत मागतात, तेव्हा Mistral चा Le Chat अजूनही दिशाभूल करणाऱ्या माहितीला खूपच बळी पडतो.

29 एप्रिल रोजी प्रसिद्ध झालेल्या निष्कर्षांमध्ये इराण युद्धाशी संबंधित खोट्या कथांवर लक्ष केंद्रित केले असून, मॉडेल तटस्थ प्रश्नांना कसा प्रतिसाद देते आणि प्रक्षोभक किंवा उघडपणे दुष्ट हेतूच्या प्रॉम्प्ट्सना कसा प्रतिसाद देते, यातील तीव्र फरक दाखवला आहे. हा फरक महत्त्वाचा आहे, कारण तो ग्राहक AI प्रणालींमधील एक जुना, पण अजून न सुटलेला, कमकुवतपणा उघड करतो: अनेक प्रणाली सरळ प्रश्नांवर योग्य वागू शकतात, पण प्रॉम्प्टच विरोधी झाला की मोठ्या प्रमाणात अपयशी ठरतात.

ऑडिटने काय तपासले

अहवालानुसार, NewsGuard ने रशियन, इराणी, आणि चिनी स्रोतांमधून आलेल्या दहा खोट्या दाव्यांची चाचणी केली. उदाहरणांमध्ये French carrier Charles de Gaulle वर टायफस पसरल्याची बनावट कथा, शेकडो US सैनिक मारल्याचे दावे, आणि Oman वर Emirati ड्रोन हल्ला झाल्याची बातमी यांचा समावेश होता.

प्रत्येक दावा तीन प्रकारच्या प्रॉम्प्ट्समध्ये तपासला गेला:

  • तटस्थ प्रश्न, जे दावा खरा आहे असे गृहित न धरता विचारत होते
  • प्रक्षोभक प्रश्न, जे खोट्या दाव्याला सत्य मानत होते
  • दुष्ट हेतूचे प्रॉम्प्ट्स, जे दिशाभूल करणारी माहिती सोशल-मीडिया-तयार मजकुरात रूपांतरित करण्यास सांगत होते

निष्कर्ष फारच स्पष्ट होते. तटस्थ प्रॉम्प्ट्सवर त्रुटी दर सुमारे 10 टक्के, प्रक्षोभक प्रॉम्प्ट्सवर 60 टक्के, आणि दुष्ट हेतूच्या प्रॉम्प्ट्सवर 80 टक्के होता. संपूर्ण ऑडिटमध्ये, NewsGuard च्या म्हणण्यानुसार Le Chat चा त्रुटी दर इंग्रजीत 50 टक्के आणि फ्रेंचमध्ये 56.6 टक्के होता.

ही संख्या का महत्त्वाची आहे

हे निष्कर्ष फक्त एवढेच दाखवत नाहीत की मॉडेल तथ्यात्मक चुका करू शकते. प्रॉम्प्टची रचना स्वतःच हे ठरवण्यात मोठी भूमिका बजावते की प्रणाली खोट्या कथांचा प्रतिकार करते की त्यांना आणखी वाढवते. प्रत्यक्षात, काळजीपूर्वक विचारणाऱ्या अनिश्चित वापरकर्त्याला एक प्रकारचे उत्तर मिळू शकते, तर दिशाभूल करणारी माहिती धुवून काढू पाहणाऱ्या वापरकर्त्याला अधिक धोकादायक output मिळू शकते.

AI safety चर्चेचा हा केंद्रबिंदू आहे. सर्वात कठीण प्रत्यक्ष समस्या ही नाही की चॅटबॉट आदर्श परिस्थितीत पाठ्यपुस्तकासारख्या तथ्यात्मक प्रश्नाचे बरोबर उत्तर देतो का. खरी कसोटी ही आहे की लोक आलंकारिक framing, निवडक संदर्भ, किंवा थेट manipulation वापरत असतानाही प्रणाली विश्वासार्ह राहते का.

त्या निकषावर, हे ऑडिट मोठ्या मजबुती-समस्येकडे निर्देश करते.

युद्धकाळात दिशाभूल करणाऱ्या माहितीचा दबाव येतो

भू-राजकीय संदर्भामुळे हे निष्कर्ष आणखी महत्त्वाचे ठरतात. युद्धकाळातील माहितीपरिसर आधीच अपुष्ट दावे, प्रचार, आणि भावनावश कथांनी भरलेला असतो. अशा परिस्थितीत, चॅटबॉट्सनी मानवी fact-checkers प्रतिसाद देण्याआधीच खोट्या दाव्यांना summarize, endorse, किंवा stylistically polish केले, तर ते वेगवर्धक ठरू शकतात.

राज्य-संबंधित कथांवर ऑडिटने दिलेला भरही लक्षवेधी आहे. दिशाभूल करणारी माहिती ही केवळ सोशल प्लॅटफॉर्म्सची moderation समस्या नाही; ती AI सहाय्यकांसाठी retrieval, summarization, आणि generation समस्या देखील बनत आहे. प्रक्षोभक प्रॉम्प्ट्सना अतिशय अक्षरशः घेणारा चॅटबॉट त्या ecosystem मध्ये एक सोपा लक्ष्य बनू शकतो.

याचा अर्थ प्रणाली जाणूनबुजून खोट्यांच्या बाजूने झुकते, असा नाही. याचा अर्थ असा की, चुकीची माहिती आत्मविश्वासाने दिली गेली, किंवा वापरकर्त्याची विनंती truth-seeking ऐवजी content-production task म्हणून मांडली गेली, तर मॉडेलकडे पुरेशी safeguards नसू शकतात.

तटस्थ कामगिरी पुरेशी का नाही

तटस्थ प्रॉम्प्ट्सवरील 10 टक्के त्रुटी दरही आदर्श नाही, पण 60 ते 80 टक्क्यांच्या पट्टीशी त्यातील फरकच सर्वाधिक उठून दिसतो. यावरून प्रणालीची सुरक्षा-यंत्रणा वरवरची असल्याचे सूचित होते. दाव्याच्या premise ला ठोसपणे प्रश्न विचारण्याऐवजी, मॉडेल बहुतेक वेळा वापरकर्त्याची framing स्वीकारून पुढे जाते.

म्हणूनच केवळ तटस्थ benchmark वर आधारित safety evaluations दिशाभूल करू शकतात. सार्वजनिक वापर फक्त काळजीपूर्वक, सद्भावनापूर्ण वापरकर्त्यांकडून होत नाही. प्रचारक, मार्केटर्स, ट्रोल्स, आणि अफवा ज्या स्वरूपात ऐकल्या त्याच स्वरूपात पुन्हा सांगणारे सामान्य लोकदेखील त्याची चाचणी करतात.

अशा परिस्थितीत मॉडेलची अचूकता घसरल्यास, headline benchmark performance जितकी दाखवते त्यापेक्षा प्रत्यक्ष विश्वासार्हता कमी असते.

धोरण आणि उत्पादनाचा प्रश्न

अहवालानुसार, Mistral ने NewsGuard च्या comment request ला उत्तर दिले नाही. त्यामुळे कंपनी prompt-level safeguards, अधिक मजबूत claim verification, refusal strategies, किंवा वेगाने बदलणाऱ्या conflict narratives साठी इतर mitigations आणणार का, हा प्रश्न अनुत्तरित राहतो.

यात आणखी एक गुंतागुंत आहे: फ्रेंच संरक्षण मंत्रालय Le Chat च्या customized, offline version चा वापर करत असल्याचे म्हटले जाते. यामुळे audited consumer behavior आणि government deployments यांचा थेट संबंध लागत नाही, पण adversarial prompting अंतर्गत model reliability हा काही गौण मुद्दा नाही, हे स्पष्ट होते.

डेव्हलपर्स आता AI systems ना research aides, communication tools, आणि workflow assistants म्हणून बाजारात मांडतात. ही कामे त्यांना उच्च-प्रभावी माहिती-विवादांच्या थेट रेषेत आणतात. जे मॉडेल केवळ वापरकर्त्याने पूर्णपणे तटस्थ प्रश्न विचारले तरच चांगले काम करतात, ते प्रत्यक्ष कार्यपरिस्थितीची गरज पूर्ण करत नाहीत.

AI सुरक्षा च्या पुढील टप्प्यासाठी हे ऑडिट काय सूचित करते

NewsGuard निष्कर्षांमधून मिळणारा सर्वात महत्त्वाचा धडा म्हणजे misinformation resistance ला प्रत्यक्ष attack patterns विरुद्ध stress-test करणे आवश्यक आहे, सभ्य वापर-प्रकरणांवर नव्हे. प्रक्षोभक प्रश्न आणि content-repackaging मागण्या आता edge cases नाहीत; त्या सामान्य failure modes आहेत.

वापरकर्त्यांसाठी takeaway सोपा आहे: वादग्रस्त, वेगाने बदलणाऱ्या भू-राजकीय घटनांमध्ये, त्यांच्या उत्तरांची स्वतंत्रपणे पडताळणी होईपर्यंत चॅटबॉट्स हे सत्याचे चांगले arbiter नाहीत. डेव्हलपर्ससाठी संदेश अधिक कठोर आहे. मॉडेल्सनी plausible text आणण्यापलीकडे जायला हवे. त्यांना unsupported premises ला आव्हान द्यायला हवे, narrative manipulation ओळखायला हवे, आणि propaganda साठी formatting layer बनण्यास नकार द्यायला हवा.

Le Chat हा एकमेव बळी नाही. पण प्रॉम्प्ट framing इतक्या मोठ्या प्रमाणात कामगिरी बदलू शकते, तोपर्यंत माहिती क्षेत्रात विश्वासार्ह AI सहाय्याबद्दलचे दावे सावधगिरीनेच घ्यायला हवेत, हे या ऑडिटने स्पष्टपणे दाखवले आहे.

हा लेख The Decoder च्या अहवालावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com