नए चैटबॉट अध्ययन में AI स्वास्थ्य उत्तरों में से आधे समस्याग्रस्त पाए गए

चिकित्सकीय प्रवाह-सीमता अभी भी चिकित्सकीय विश्वसनीयता से आगे है

Medical Xpress द्वारा संक्षेपित एक नए अध्ययन से संकेत मिलता है कि लोकप्रिय AI चैटबॉट्स स्वास्थ्य सलाह के विश्वसनीय स्रोत बनने से अभी भी काफी दूर हैं। शोधकर्ताओं ने पाँच व्यापक रूप से उपयोग किए जाने वाले सिस्टमों का परीक्षण किया, उनसे कैंसर, टीके, स्टेम सेल, पोषण, और एथलेटिक प्रदर्शन से जुड़े 50 प्रश्न पूछे। मुख्य परिणाम स्पष्ट था: आधे उत्तरों को समस्याग्रस्त माना गया, और लगभग 20% को अत्यधिक समस्याग्रस्त समझा गया।

BMJ Open में प्रकाशित इस अध्ययन ने ChatGPT, Gemini, Grok, Meta AI, और DeepSeek के उत्तरों का मूल्यांकन किया। दो विशेषज्ञों ने हर उत्तर को स्वतंत्र रूप से रेट किया। हालांकि उपकरण अक्सर परिष्कृत, अधिकारपूर्ण-से लगने वाले उत्तर देते थे, शोधकर्ताओं ने बार-बार तथ्यात्मक त्रुटियाँ, अविश्वसनीय संदर्भ, और असुरक्षित या भ्रामक संकेतों को अस्वीकार न करने की लगभग पूर्ण विफलता पाई।

250 कुल प्रश्नों में से केवल दो को सीधे मना किया गया। यह महत्वपूर्ण है क्योंकि कई स्वास्थ्य प्रश्न तटस्थ, स्थापित तथ्यों के लिए नहीं होते। वे अक्सर चिंताग्रस्त, खुले-ended, या कमजोर धारणाओं पर आधारित होते हैं। ऐसे मामलों में, एक चैटबॉट जो premise को चुनौती दिए बिना सहजता से उत्तर देता है, उस से अधिक नुकसान कर सकता है जो साफ़ कह दे कि वह मदद नहीं कर सकता।

शोधकर्ताओं ने क्या पाया

स्रोत पाठ के अनुसार, पाँचों में से कोई भी सिस्टम विश्वसनीय रूप से पूरी तरह सटीक संदर्भ सूची नहीं बना सका। अध्ययन में मॉडलों के बीच अपेक्षाकृत समान प्रदर्शन भी पाया गया, जिससे संकेत मिलता है कि समस्या किसी एक प्लेटफ़ॉर्म तक सीमित नहीं, बल्कि संरचनात्मक है। इस तुलना में Grok का प्रदर्शन सबसे खराब रहा, जिसकी 58% प्रतिक्रियाएँ समस्याग्रस्त थीं; इसके बाद ChatGPT 52% और Meta AI 50% पर रहे।

विषय के अनुसार प्रदर्शन बदला। टीके और कैंसर में सबसे अच्छे परिणाम मिले, जिसे लेख उन क्षेत्रों में उपलब्ध व्यापक और अपेक्षाकृत संरचित शोध-आधार का परिणाम बताता है। फिर भी, वहाँ भी चैटबॉट्स ने लगभग एक चौथाई समय समस्याग्रस्त उत्तर दिए। पोषण और एथलेटिक प्रदर्शन अधिक चिंताजनक रहे, संभवतः क्योंकि इन विषयों में विरोधाभासी दावे, कमजोर साक्ष्य, और कम-गुणवत्ता वाली ऑनलाइन सामग्री बहुत अधिक है।

जब संकेत खुले-ended हुए तो अंतर तेज़ी से बढ़ गया। अध्ययन में पाया गया कि 32% खुले-ended उत्तरों को अत्यधिक समस्याग्रस्त माना गया, जबकि बंद प्रश्नों के लिए यह आँकड़ा 7% था। यह अंतर प्रयोगशाला के बाहर विशेष रूप से महत्वपूर्ण है, क्योंकि वास्तविक मरीज आम तौर पर बहुविकल्पीय ढंग से प्रश्न नहीं पूछते। वे ऐसे व्यापक प्रश्न पूछते हैं जैसे कौन से सप्लीमेंट सबसे अच्छे हैं, कौन सा उपचार सबसे तेज़ काम करता है, या क्या किसी क्लिनिक के दावे विश्वसनीय लगते हैं।

New data may cast doubt on competitiveness of Boehringer’s obesity drug

नए मोटापा-रोधी दवा डेटा ने Boehringer की स्थिति पर सवाल खड़े किए

Boehringer Ingelheim की मोटापा-रोधी दवा पर नया डेटा मिश्रित प्रोफ़ाइल दिखाता है, जिसमें लिवर-फैट में उत्साहजनक कमी तो है, लेकिन कुल वजन घटाने में कम प्रभावशाली प्रदर्शन है.

Read article

आत्मविश्वास क्यों जोखिम का हिस्सा है

सबसे चौंकाने वाली बात केवल यह नहीं है कि त्रुटियाँ होती हैं। बात यह है कि त्रुटियाँ persuasive भाषा में पैक की जा सकती हैं। लेख का उदाहरण एक काल्पनिक कैंसर मरीज का है जो AI सिस्टम से वैकल्पिक क्लिनिकों के बारे में पूछता है। चिंता केवल असमर्थित चिकित्सकीय दावों की नहीं, बल्कि नकली या टूटे हुए citations और प्रश्न की framing पर किसी भी प्रकार की प्रतिक्रिया के अभाव की भी है।

स्वास्थ्य संदर्भों में यह संयोजन खतरनाक है। उपयोगकर्ता शैली को substance समझ सकते हैं, विशेषकर जब उत्तर footnoted और पेशेवर ढंग से लिखा हुआ दिखता है। एक चैटबॉट किसी यादृच्छिक forum post से अधिक सुरक्षित लग सकता है क्योंकि वह व्यवस्थित और तटस्थ सुनाई देता है। अध्ययन सुझाव देता है कि यह दिखावट भ्रामक हो सकती है।

स्वास्थ्य जानकारी के लिए केवल स्मरण नहीं, बल्कि निर्णय की आवश्यकता होती है: खराब premises को पहचानना, साक्ष्य की गुणवत्ता में अंतर करना, और urgent cases को योग्य clinicians तक escalat करना। एक मॉडल जो केवल plausible next words की भविष्यवाणी करता है, वह competent लग सकता है, भले ही वह यह सब वास्तव में न कर रहा हो।

मरीजों और प्लेटफ़ॉर्मों के लिए इसका अर्थ

ये निष्कर्ष इस बात को मजबूत करते हैं कि consumer AI systems को विश्वसनीय first-line medical authorities नहीं माना जाना चाहिए। वे प्रश्नों के मसौदे तैयार करने, शब्दावली समझाने, या सामान्य अवधारणाओं में उपयोगकर्ताओं का मार्गदर्शन करने में उपयोगी हो सकते हैं, लेकिन ये लाभ चिकित्सकीय निगरानी की आवश्यकता को समाप्त नहीं करते। oncology, टीकों, या अप्रमाणित therapies जैसे संवेदनशील क्षेत्रों में, केवल आंशिक रूप से गलत उत्तर भी निर्णयों को गलत दिशा में ले जा सकता है।

परिणाम AI कंपनियों के लिए product-design प्रश्न भी उठाते हैं। यदि 250 में से केवल दो प्रश्नों को मना किया गया, तो refusal thresholds स्वास्थ्य उपयोग के लिए बहुत संकीर्ण हो सकती हैं। अधिक लक्षित safeguards में हानिकारक premises का बेहतर detection, uncertainty के बारे में बेहतर calibration, और ऐसे reference systems शामिल हो सकते हैं जो जहाँ समर्थन मौजूद नहीं है वहाँ समर्थन का संकेत न दें।

उतना ही महत्वपूर्ण, model builders को यह पुनर्विचार करना पड़ सकता है कि systems खुले-ended स्वास्थ्य संकेतों को कैसे संभालें। सुरक्षित उत्तर हमेशा सीधा उत्तर नहीं होता। कुछ मामलों में, सही कदम प्रश्न को चुनौती देना, दायरा सीमित करना, या polished response देने के बजाय clinician consultation की सलाह देना है।

Engineered stem cells reverse new-onset type 1 diabetes in mice

इंजीनियर्ड स्टेम कोशिकाओं ने चूहों में नई शुरुआत वाले टाइप 1 मधुमेह को उलट दिया

MUSC के शोधकर्ताओं ने बताया कि संशोधित मेसेनकाइमल स्टेम कोशिकाओं ने प्रतिरक्षा-नियमन और सूजन-रोधी सुरक्षा को मिलाकर चूहे के मॉडल में नई शुरुआत वाले टाइप 1 मधुमेह को उलट दिया।

Read article

विस्तृत सबक

यह अध्ययन यह नहीं दिखाता कि स्वास्थ्य जानकारी में AI की कोई भूमिका नहीं है। यह दिखाता है कि मौजूदा सामान्य-उद्देश्य चैटबॉट्स अभी भी इतनी बार विफल होते हैं कि उपयोगकर्ताओं के लिए उसे पहचानना कठिन होता है। परीक्षण किए गए सिस्टम हर प्रश्न का fluent prose में उत्तर दे सकते थे, लेकिन fluency विश्वसनीयता का proxy नहीं थी।

यह मरीजों और डेवलपर्स, दोनों के लिए मुख्य सबक है। लोग तेजी से डॉक्टर से बात करने से पहले AI की ओर मुड़ते हैं, खासकर जब वे डरे हुए या अधीर हों। यदि कोई सिस्टम वहाँ निश्चितता से उत्तर देता है जहाँ सावधानी चाहिए, तो उपयोगकर्ता को बहुत बाद तक जोखिम का एहसास नहीं होगा। चिकित्सा में यह एक गंभीर failure mode है।

जब तक accuracy, citation integrity, और refusal behavior में काफी सुधार नहीं होता, AI चैटबॉट्स को भरोसेमंद medical guides की बजाय drafting और orientation tools के रूप में देखना बेहतर है। BMJ Open के परिणाम संकेत देते हैं कि उद्योग को अभी सुरक्षा अंतर का एक बड़ा हिस्सा बंद करना बाकी है।

शोधकर्ताओं ने पाँच प्रमुख चैटबॉट्स को 50 स्वास्थ्य प्रश्न प्रत्येक पर परखा।
सभी उत्तरों में से आधे समस्याग्रस्त थे और लगभग पाँच में से एक अत्यधिक समस्याग्रस्त थी।
खुले-ended स्वास्थ्य प्रश्नों में बंद प्रश्नों की तुलना में कहीं खराब परिणाम आए।
कोई भी चैटबॉट पूरी तरह सटीक संदर्भ सूचियाँ विश्वसनीय रूप से नहीं बना सका।

यह लेख Medical Xpress की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on medicalxpress.com

अध्ययन में पाया गया कि AI चैटबॉट्स अभी भी खतरनाक स्वास्थ्य उत्तर चिंताजनक आत्मविश्वास से देते हैं

चिकित्सकीय प्रवाह-सीमता अभी भी चिकित्सकीय विश्वसनीयता से आगे है

शोधकर्ताओं ने क्या पाया

नए मोटापा-रोधी दवा डेटा ने Boehringer की स्थिति पर सवाल खड़े किए

आत्मविश्वास क्यों जोखिम का हिस्सा है

मरीजों और प्लेटफ़ॉर्मों के लिए इसका अर्थ

इंजीनियर्ड स्टेम कोशिकाओं ने चूहों में नई शुरुआत वाले टाइप 1 मधुमेह को उलट दिया

विस्तृत सबक

Comments (0)

Related Articles

Pfizer की मासिक obesity दवा का मामला अभी भी कायम है

Glioblastoma अध्ययन ने ट्यूमर के फैलाव से जुड़े एक लक्ष्य की पहचान की

ऑटिज़्म अध्ययन में मस्तिष्क संपर्क के दो उपप्रकार पहचाने गए

RFK Jr. ऑटिज़्म-वैक्सीन अध्ययन अभियान में चिकित्सीय रिकॉर्ड तक पहुंच के लिए जोर दे रहे हैं

Keep Reading