नव्या चॅटबॉट अभ्यासात AI आरोग्य उत्तरांपैकी निम्मी समस्या-युक्त आढळली

वैद्यकीय प्रवाहीपणा अजूनही वैद्यकीय विश्वासार्हतेच्या पुढे आहे

Medical Xpress ने संक्षेपित केलेल्या नव्या अभ्यासातून सूचित होते की लोकप्रिय AI चॅटबॉट्स आरोग्य सल्ल्याचे विश्वासार्ह स्रोत होण्यापासून अजून खूप दूर आहेत. संशोधकांनी पाच व्यापकपणे वापरल्या जाणाऱ्या प्रणालींची चाचणी घेतली, त्यांना कर्करोग, लसी, स्टेम सेल्स, पोषण, आणि क्रीडा कामगिरी याबद्दल 50 प्रश्न विचारले. मुख्य निष्कर्ष थेट होता: निम्मी उत्तरे समस्या-युक्त म्हणून रेट केली गेली, आणि जवळपास 20% अत्यंत समस्या-युक्त मानली गेली.

BMJ Open मध्ये प्रकाशित या अभ्यासात ChatGPT, Gemini, Grok, Meta AI, आणि DeepSeek यांच्या प्रतिसादांचे मूल्यांकन केले गेले. दोन तज्ज्ञांनी प्रत्येक उत्तर स्वतंत्रपणे रेट केले. साधनांनी अनेकदा परिष्कृत, अधिकारवाणी वाटणारी उत्तरे दिली, तरी संशोधकांना वारंवार तथ्यात्मक चुका, अविश्वसनीय संदर्भ, आणि धोकादायक किंवा दिशाभूल करणारे प्रॉम्प्ट नाकारण्यात जवळपास पूर्ण अपयश आढळले.

एकूण 250 प्रश्नांपैकी फक्त दोन थेट नाकारले गेले. हे महत्त्वाचे आहे कारण अनेक आरोग्य प्रश्न तटस्थ, चांगले-स्थापित तथ्यांसाठी नसतात. ते अनेकदा चिंता-ग्रस्त, open-ended, किंवा कमकुवत गृहितकांवर आधारित असतात. अशा वेळी, premise ला आव्हान न देता सहजपणे उत्तर देणारा चॅटबॉट, तो मदत करू शकत नाही असे स्पष्ट सांगणाऱ्यापेक्षा अधिक हानी करू शकतो.

संशोधकांना काय आढळले

मूळ मजकुरानुसार, पाचपैकी कोणतीही प्रणाली पूर्णपणे अचूक reference lists विश्वासार्हपणे तयार करू शकली नाही. या अभ्यासात मॉडेल्समधील कामगिरीही बर्‍यापैकी समान आढळली, ज्यामुळे समस्या एका platformपुरती मर्यादित नसून संरचनात्मक आहे असे सूचित होते. या तुलनेत Grok सर्वात खराब ठरला, 58% प्रतिसाद समस्या-युक्त म्हणून चिन्हांकित झाले; त्यानंतर ChatGPT 52% आणि Meta AI 50% होते.

विषयानुसार कामगिरी बदलली. लसी आणि कर्करोगात सर्वोत्तम परिणाम दिसले, ज्याचे श्रेय लेख त्या क्षेत्रांतील मोठ्या आणि तुलनेने संरचित संशोधन-आधाराला देतो. तरीही, तिथेसुद्धा चॅटबॉट्सनी जवळपास चतुर्थांश वेळा समस्या-युक्त उत्तरे दिली. पोषण आणि क्रीडा कामगिरी अधिक चिंताजनक ठरली, कदाचित कारण त्या विषयांभोवती परस्परविरोधी दावे, कमकुवत पुरावे, आणि निकृष्ट ऑनलाइन सामग्री मोठ्या प्रमाणावर आहे.

प्रॉम्प्ट्स open-ended झाल्यावर फरक तीव्र झाला. अभ्यासात 32% open-ended उत्तरे अत्यंत समस्या-युक्त म्हणून रेट केली गेली, तर closed questions साठी हे प्रमाण 7% होते. प्रयोगशाळेबाहेर हे विशेष महत्त्वाचे आहे, कारण प्रत्यक्ष रुग्ण सामान्यतः multiple-choice स्वरूपात प्रश्न विचारत नाहीत. ते असे विस्तृत प्रश्न विचारतात की कोणती supplements सर्वोत्तम आहेत, कोणते उपचार सर्वात जलद काम करतात, किंवा एखाद्या क्लिनिकचे दावे विश्वासार्ह वाटतात का.

New data may cast doubt on competitiveness of Boehringer’s obesity drug

नवीन肥胖 औषध डेटा Boehringer च्या स्थानाबाबत प्रश्न निर्माण करतो

Boehringer Ingelheim च्या肥胖 औषधाबाबतचा नवीन डेटा मिश्र प्रोफाइल दाखवतो, ज्यात लिव्हर-फॅट कमी होण्याचे आश्वासक संकेत आहेत, पण एकूण वजन कमी होण्याचे परिणाम तुलनेने कमी प्रभावी आहेत.

Read article

आत्मविश्वास हा जोखमीचा भाग का आहे

सर्वात लक्षवेधी मुद्दा फक्त चुका होतात हा नाही. त्या चुका persuasive language मध्ये गुंडाळल्या जाऊ शकतात, हा आहे. लेखातील उदाहरण एका काल्पनिक कर्करोग रुग्णाचे आहे जो AI system ला alternative clinics बद्दल विचारतो. चिंता फक्त असमर्थित वैद्यकीय दाव्यांची नाही, तर fake किंवा broken citations आणि प्रश्नाच्या framing वर कोणताही प्रतिवाद नसण्याचीही आहे.

आरोग्य संदर्भात ही जोड धोकादायक आहे. उत्तर footnoted आणि व्यावसायिक रीतीने लिहिलेले दिसले, तर वापरकर्ते style ला substance समजू शकतात. एक चॅटबॉट सुव्यवस्थित आणि तटस्थ वाटल्यामुळे random forum post पेक्षा सुरक्षित भासू शकतो. अभ्यास सूचित करतो की हा देखावा फसवू शकतो.

आरोग्य माहितीला फक्त स्मरणशक्ती नव्हे, तर निर्णयक्षमताही हवी: वाईट premises ओळखणे, पुराव्याची गुणवत्ता वेगळी करणे, आणि तातडीच्या प्रकरणांना पात्र डॉक्टरांकडे escalat करणे. एक मॉडेल फक्त plausible next words भाकीत करत असेल, तर ते प्रत्यक्षात हे करत नसतानाही सक्षम वाटू शकते.

रुग्ण आणि प्लॅटफॉर्मसाठी याचा अर्थ

हे निष्कर्ष consumer AI systems ना विश्वासार्ह first-line medical authorities म्हणून न पाहण्याच्या बाजूनेचा मुद्दा बळकट करतात. ती प्रश्नांची मसुदा तयार करण्यात, संज्ञा समजावून सांगण्यात, किंवा सामान्य संकल्पनांमधून मार्ग काढण्यात उपयुक्त ठरू शकतात, पण हे फायदे clinical oversight ची गरज दूर करत नाहीत. oncology, लसी, किंवा अप्रमाणित therapies सारख्या संवेदनशील क्षेत्रांत, अर्धवट चुकीचे उत्तरही निर्णयांना चुकीच्या दिशेने नेऊ शकते.

हे परिणाम AI कंपन्यांसाठी product-design प्रश्नही निर्माण करतात. जर 250 पैकी फक्त दोन प्रश्न नाकारले गेले, तर refusal thresholds आरोग्य वापरासाठी खूपच अरुंद असू शकतात. अधिक लक्षित safeguards मध्ये हानिकारक premises ओळखणे, uncertainty संदर्भातील चांगले calibration, आणि जिथे आधारच नाही तिथे समर्थन सूचित न करणाऱ्या reference systems चा समावेश होऊ शकतो.

तितकेच महत्त्वाचे म्हणजे, model builders ला systems open-ended health prompts कसे हाताळतील याचा पुनर्विचार करावा लागू शकतो. सुरक्षित उत्तर नेहमीच थेट उत्तर नसते. काही प्रसंगी, योग्य पाऊल म्हणजे प्रश्नाला आव्हान देणे, व्याप्ती मर्यादित करणे, किंवा polished response देण्याऐवजी clinician consultation सुचवणे.

Engineered stem cells reverse new-onset type 1 diabetes in mice

अभियांत्रिक स्टेम पेशींनी उंदिरांमध्ये नवीन सुरू झालेला टाइप 1 मधुमेह उलटवला

MUSC मधील संशोधकांनी अहवाल दिला आहे की सुधारित मेसेन्कायमल स्टेम पेशींनी प्रतिकार-नियमन आणि दाहरोधक संरक्षण एकत्र करून उंदिरांच्या मॉडेलमध्ये नवीन सुरू झालेला टाइप 1 मधुमेह उलटवला.

Read article

मोठा धडा

हा अभ्यास आरोग्य माहितीत AI ची कोणतीही भूमिका नाही असे दाखवत नाही. तो दाखवतो की सध्याचे general-purpose चॅटबॉट्स अजूनही इतक्या वेळा अपयशी ठरतात की वापरकर्त्यांना ते ओळखणे कठीण होते. चाचणी घेतलेल्या प्रणाली प्रत्येक प्रश्नाला fluent prose मध्ये उत्तर देऊ शकत होत्या, पण fluency हे trustworthiness चे पर्याय नव्हते.

हा रुग्ण आणि विकसक दोघांसाठी मुख्य धडा आहे. लोक increasingly डॉक्टरांशी बोलण्यापूर्वी AI कडे वळतात, विशेषतः जेव्हा ते घाबरलेले किंवा उतावळे असतात. जर एखादी प्रणाली जिथे सावधगिरी हवी तिथे certainty ने उत्तर देत असेल, तर वापरकर्त्याला धोका खूप उशिरा कळू शकतो. वैद्यकशास्त्रात हा एक गंभीर failure mode आहे.

जोपर्यंत accuracy, citation integrity, आणि refusal behavior लक्षणीयरीत्या सुधारत नाहीत, तोपर्यंत AI चॅटबॉट्सना विश्वासार्ह medical guides पेक्षा drafting आणि orientation tools म्हणून पाहणे अधिक योग्य आहे. BMJ Open निष्कर्ष सूचित करतात की उद्योगाला अजून एक मोठे safety gap बंद करायचे आहे.

संशोधकांनी पाच प्रमुख AI चॅटबॉट्सची प्रत्येकी 50 आरोग्य प्रश्नांवर चाचणी घेतली.
सर्व उत्तरांपैकी निम्मी समस्या-युक्त होती, आणि जवळपास पाचपैकी एक अत्यंत समस्या-युक्त होती.
open-ended आरोग्य प्रश्नांनी closed questions पेक्षा खूपच वाईट परिणाम दिले.
कोणत्याही चॅटबॉटने पूर्णपणे अचूक reference lists विश्वासार्हपणे तयार केल्या नाहीत.

हा लेख Medical Xpress च्या वृत्तांकनावर आधारित आहे. मूळ लेख वाचा.

Originally published on medicalxpress.com

AI चॅटबॉट्स अजूनही धोकादायक आरोग्य उत्तरे चिंताजनक आत्मविश्वासाने देतात, अभ्यासात आढळले

वैद्यकीय प्रवाहीपणा अजूनही वैद्यकीय विश्वासार्हतेच्या पुढे आहे

संशोधकांना काय आढळले

नवीन肥胖 औषध डेटा Boehringer च्या स्थानाबाबत प्रश्न निर्माण करतो

आत्मविश्वास हा जोखमीचा भाग का आहे

रुग्ण आणि प्लॅटफॉर्मसाठी याचा अर्थ

अभियांत्रिक स्टेम पेशींनी उंदिरांमध्ये नवीन सुरू झालेला टाइप 1 मधुमेह उलटवला

मोठा धडा

Comments (0)

Related Articles

अमिश आरोग्यविषयक वादविवाद वाढत्या सार्वजनिक आरोग्य आव्हानावर प्रकाश टाकतो

Pfizer च्या मासिक obesity drug चा दावा अजूनही टिकून आहे

Keep Reading