वैद्यकीय प्रवाहीपणा अजूनही वैद्यकीय विश्वासार्हतेच्या पुढे आहे
Medical Xpress ने संक्षेपित केलेल्या नव्या अभ्यासातून सूचित होते की लोकप्रिय AI चॅटबॉट्स आरोग्य सल्ल्याचे विश्वासार्ह स्रोत होण्यापासून अजून खूप दूर आहेत. संशोधकांनी पाच व्यापकपणे वापरल्या जाणाऱ्या प्रणालींची चाचणी घेतली, त्यांना कर्करोग, लसी, स्टेम सेल्स, पोषण, आणि क्रीडा कामगिरी याबद्दल 50 प्रश्न विचारले. मुख्य निष्कर्ष थेट होता: निम्मी उत्तरे समस्या-युक्त म्हणून रेट केली गेली, आणि जवळपास 20% अत्यंत समस्या-युक्त मानली गेली.
BMJ Open मध्ये प्रकाशित या अभ्यासात ChatGPT, Gemini, Grok, Meta AI, आणि DeepSeek यांच्या प्रतिसादांचे मूल्यांकन केले गेले. दोन तज्ज्ञांनी प्रत्येक उत्तर स्वतंत्रपणे रेट केले. साधनांनी अनेकदा परिष्कृत, अधिकारवाणी वाटणारी उत्तरे दिली, तरी संशोधकांना वारंवार तथ्यात्मक चुका, अविश्वसनीय संदर्भ, आणि धोकादायक किंवा दिशाभूल करणारे प्रॉम्प्ट नाकारण्यात जवळपास पूर्ण अपयश आढळले.
एकूण 250 प्रश्नांपैकी फक्त दोन थेट नाकारले गेले. हे महत्त्वाचे आहे कारण अनेक आरोग्य प्रश्न तटस्थ, चांगले-स्थापित तथ्यांसाठी नसतात. ते अनेकदा चिंता-ग्रस्त, open-ended, किंवा कमकुवत गृहितकांवर आधारित असतात. अशा वेळी, premise ला आव्हान न देता सहजपणे उत्तर देणारा चॅटबॉट, तो मदत करू शकत नाही असे स्पष्ट सांगणाऱ्यापेक्षा अधिक हानी करू शकतो.
संशोधकांना काय आढळले
मूळ मजकुरानुसार, पाचपैकी कोणतीही प्रणाली पूर्णपणे अचूक reference lists विश्वासार्हपणे तयार करू शकली नाही. या अभ्यासात मॉडेल्समधील कामगिरीही बर्यापैकी समान आढळली, ज्यामुळे समस्या एका platformपुरती मर्यादित नसून संरचनात्मक आहे असे सूचित होते. या तुलनेत Grok सर्वात खराब ठरला, 58% प्रतिसाद समस्या-युक्त म्हणून चिन्हांकित झाले; त्यानंतर ChatGPT 52% आणि Meta AI 50% होते.
विषयानुसार कामगिरी बदलली. लसी आणि कर्करोगात सर्वोत्तम परिणाम दिसले, ज्याचे श्रेय लेख त्या क्षेत्रांतील मोठ्या आणि तुलनेने संरचित संशोधन-आधाराला देतो. तरीही, तिथेसुद्धा चॅटबॉट्सनी जवळपास चतुर्थांश वेळा समस्या-युक्त उत्तरे दिली. पोषण आणि क्रीडा कामगिरी अधिक चिंताजनक ठरली, कदाचित कारण त्या विषयांभोवती परस्परविरोधी दावे, कमकुवत पुरावे, आणि निकृष्ट ऑनलाइन सामग्री मोठ्या प्रमाणावर आहे.
प्रॉम्प्ट्स open-ended झाल्यावर फरक तीव्र झाला. अभ्यासात 32% open-ended उत्तरे अत्यंत समस्या-युक्त म्हणून रेट केली गेली, तर closed questions साठी हे प्रमाण 7% होते. प्रयोगशाळेबाहेर हे विशेष महत्त्वाचे आहे, कारण प्रत्यक्ष रुग्ण सामान्यतः multiple-choice स्वरूपात प्रश्न विचारत नाहीत. ते असे विस्तृत प्रश्न विचारतात की कोणती supplements सर्वोत्तम आहेत, कोणते उपचार सर्वात जलद काम करतात, किंवा एखाद्या क्लिनिकचे दावे विश्वासार्ह वाटतात का.
आत्मविश्वास हा जोखमीचा भाग का आहे
सर्वात लक्षवेधी मुद्दा फक्त चुका होतात हा नाही. त्या चुका persuasive language मध्ये गुंडाळल्या जाऊ शकतात, हा आहे. लेखातील उदाहरण एका काल्पनिक कर्करोग रुग्णाचे आहे जो AI system ला alternative clinics बद्दल विचारतो. चिंता फक्त असमर्थित वैद्यकीय दाव्यांची नाही, तर fake किंवा broken citations आणि प्रश्नाच्या framing वर कोणताही प्रतिवाद नसण्याचीही आहे.
आरोग्य संदर्भात ही जोड धोकादायक आहे. उत्तर footnoted आणि व्यावसायिक रीतीने लिहिलेले दिसले, तर वापरकर्ते style ला substance समजू शकतात. एक चॅटबॉट सुव्यवस्थित आणि तटस्थ वाटल्यामुळे random forum post पेक्षा सुरक्षित भासू शकतो. अभ्यास सूचित करतो की हा देखावा फसवू शकतो.
आरोग्य माहितीला फक्त स्मरणशक्ती नव्हे, तर निर्णयक्षमताही हवी: वाईट premises ओळखणे, पुराव्याची गुणवत्ता वेगळी करणे, आणि तातडीच्या प्रकरणांना पात्र डॉक्टरांकडे escalat करणे. एक मॉडेल फक्त plausible next words भाकीत करत असेल, तर ते प्रत्यक्षात हे करत नसतानाही सक्षम वाटू शकते.
रुग्ण आणि प्लॅटफॉर्मसाठी याचा अर्थ
हे निष्कर्ष consumer AI systems ना विश्वासार्ह first-line medical authorities म्हणून न पाहण्याच्या बाजूनेचा मुद्दा बळकट करतात. ती प्रश्नांची मसुदा तयार करण्यात, संज्ञा समजावून सांगण्यात, किंवा सामान्य संकल्पनांमधून मार्ग काढण्यात उपयुक्त ठरू शकतात, पण हे फायदे clinical oversight ची गरज दूर करत नाहीत. oncology, लसी, किंवा अप्रमाणित therapies सारख्या संवेदनशील क्षेत्रांत, अर्धवट चुकीचे उत्तरही निर्णयांना चुकीच्या दिशेने नेऊ शकते.
हे परिणाम AI कंपन्यांसाठी product-design प्रश्नही निर्माण करतात. जर 250 पैकी फक्त दोन प्रश्न नाकारले गेले, तर refusal thresholds आरोग्य वापरासाठी खूपच अरुंद असू शकतात. अधिक लक्षित safeguards मध्ये हानिकारक premises ओळखणे, uncertainty संदर्भातील चांगले calibration, आणि जिथे आधारच नाही तिथे समर्थन सूचित न करणाऱ्या reference systems चा समावेश होऊ शकतो.
तितकेच महत्त्वाचे म्हणजे, model builders ला systems open-ended health prompts कसे हाताळतील याचा पुनर्विचार करावा लागू शकतो. सुरक्षित उत्तर नेहमीच थेट उत्तर नसते. काही प्रसंगी, योग्य पाऊल म्हणजे प्रश्नाला आव्हान देणे, व्याप्ती मर्यादित करणे, किंवा polished response देण्याऐवजी clinician consultation सुचवणे.
मोठा धडा
हा अभ्यास आरोग्य माहितीत AI ची कोणतीही भूमिका नाही असे दाखवत नाही. तो दाखवतो की सध्याचे general-purpose चॅटबॉट्स अजूनही इतक्या वेळा अपयशी ठरतात की वापरकर्त्यांना ते ओळखणे कठीण होते. चाचणी घेतलेल्या प्रणाली प्रत्येक प्रश्नाला fluent prose मध्ये उत्तर देऊ शकत होत्या, पण fluency हे trustworthiness चे पर्याय नव्हते.
हा रुग्ण आणि विकसक दोघांसाठी मुख्य धडा आहे. लोक increasingly डॉक्टरांशी बोलण्यापूर्वी AI कडे वळतात, विशेषतः जेव्हा ते घाबरलेले किंवा उतावळे असतात. जर एखादी प्रणाली जिथे सावधगिरी हवी तिथे certainty ने उत्तर देत असेल, तर वापरकर्त्याला धोका खूप उशिरा कळू शकतो. वैद्यकशास्त्रात हा एक गंभीर failure mode आहे.
जोपर्यंत accuracy, citation integrity, आणि refusal behavior लक्षणीयरीत्या सुधारत नाहीत, तोपर्यंत AI चॅटबॉट्सना विश्वासार्ह medical guides पेक्षा drafting आणि orientation tools म्हणून पाहणे अधिक योग्य आहे. BMJ Open निष्कर्ष सूचित करतात की उद्योगाला अजून एक मोठे safety gap बंद करायचे आहे.
- संशोधकांनी पाच प्रमुख AI चॅटबॉट्सची प्रत्येकी 50 आरोग्य प्रश्नांवर चाचणी घेतली.
- सर्व उत्तरांपैकी निम्मी समस्या-युक्त होती, आणि जवळपास पाचपैकी एक अत्यंत समस्या-युक्त होती.
- open-ended आरोग्य प्रश्नांनी closed questions पेक्षा खूपच वाईट परिणाम दिले.
- कोणत्याही चॅटबॉटने पूर्णपणे अचूक reference lists विश्वासार्हपणे तयार केल्या नाहीत.
हा लेख Medical Xpress च्या वृत्तांकनावर आधारित आहे. मूळ लेख वाचा.
Originally published on medicalxpress.com



