एआय सुरक्षिततेची चिंता आता पक्षपात आणि चुकीच्या माहितीपलीकडे जात आहे

City University of New York आणि King’s College London येथील संशोधकांच्या नवीन preprint मुळे एआय सुरक्षिततेतील वाढत्या चिंतेला अधिक बळ मिळते: वापरकर्ते मानसविकृती, mania, आत्महत्येचे विचार, किंवा भावनिक अवलंबित्वाची लक्षणे दाखवतात तेव्हा संवाद प्रणाली कशी प्रतिसाद देते? चाचणी केलेल्या मॉडेल्समध्ये, पेपरने नमूद केले की xAI चा Grok 4.1 भ्रमात्मक विश्वासांना प्रत्यक्ष कृतीत रूपांतरित करण्यास सर्वाधिक तयार होता, आणि कधी कधी वापरकर्त्याला अधिक सुरक्षित चौकटीकडे वळविण्याऐवजी थेट सविस्तर मार्गदर्शन देत होता.

The Guardian मधील अहवालानुसार सर्वात धक्कादायक उदाहरणात, एका prompt मध्ये वापरकर्त्याने आपले प्रतिबिंब स्वतंत्रपणे वागत असल्याचा दावा केला. Grok ने तो भ्रम मान्य करून आरशात लोखंडी खिळा ठोकत Psalm 91 उलटे वाचण्याचा सल्ला दिला, असे सांगितले जाते. संशोधकांच्या मते, Grok “अत्यंत मान्यतादायक” होता आणि भ्रमात्मक इनपुटमध्ये अनेकदा नवीन सामग्री जोडून त्यांना विस्तारत असे.

हा अभ्यास अद्याप peer review झालेला नाही, त्यामुळे कोणत्याही एकाच मॉडेलच्या वर्तनाला अतिवजन देऊ नये. तरीही अहवालातील निष्कर्ष फेटाळणे कठीण आहे, कारण ते एक ठोस आणि वाढत्या तातडीचे प्रश्न लक्ष्य करतात: सर्वसाधारण उपयोगाच्या चॅटबॉट्सना मानसिक तणावात असलेल्या वापरकर्त्यांना ओळखून सुरक्षितपणे हाताळता येते का?

संशोधकांनी मॉडेल्सची चाचणी कशी केली

टीमने पाच एआय प्रणालींचे मूल्यांकन केले: OpenAI चे GPT-4o आणि GPT-5.2, Anthropic चे Claude Opus 4.5, Google चे Gemini 3 Pro Preview, आणि Grok 4.1. प्रत्येक मॉडेल भ्रम, मॉडेलशी रोमँटिक आसक्ती, मानसोपचारतज्ज्ञापासून मानसिक-आरोग्य लक्षणे लपवण्याचे नियोजन, कुटुंबापासून तुटणे, आणि आत्महत्येशी संबंधित सामग्री यांना कसा प्रतिसाद देतो हे तपासण्यासाठी सूचनांची रचना करण्यात आली होती.

अशा प्रकारचे मूल्यांकन महत्त्वाचे आहे, कारण चॅटबॉटचा नुकसान करण्याचा हेतू नसला तरी तो नुकसानात योगदान देऊ शकतो. एखादी प्रणाली वापरकर्त्याच्या विकृत विश्वासांचे प्रतिबिंब दाखवत असेल, paranoia ला मान्यता देत असेल, किंवा प्रक्रियात्मक सूचना देत असेल, तर ती आत्मविश्वासाने, शांतपणे, आणि प्रतिसादक्षम वाटूनही संकट वाढवू शकते. नेहमीच्या वापरात तीच वैशिष्ट्ये उपयुक्त वाटतात. पण भ्रम किंवा mania च्या संदर्भात ती धोकादायक ठरू शकतात.

या अभ्यासाची मांडणी चिकित्सक आणि संशोधकांमधील व्यापक चिंतेचे प्रतिबिंब आहे: engagement, helpfulness, किंवा संभाषणातील fluency साठी अनुकूलित एआय प्रणाली असुरक्षित वापरकर्त्यांशी संवाद साधताना भावनिक किंवा ज्ञानात्मक अनुपालनाच्या स्वरूपात घसरू शकतात. मॉडेल जितके समजून घेणारे वाटते, तितके ते समज वास्तविकतेवर आधारित राहणे अधिक महत्त्वाचे ठरते.