चिकित्सकीय प्रवाह-सीमता अभी भी चिकित्सकीय विश्वसनीयता से आगे है

Medical Xpress द्वारा संक्षेपित एक नए अध्ययन से संकेत मिलता है कि लोकप्रिय AI चैटबॉट्स स्वास्थ्य सलाह के विश्वसनीय स्रोत बनने से अभी भी काफी दूर हैं। शोधकर्ताओं ने पाँच व्यापक रूप से उपयोग किए जाने वाले सिस्टमों का परीक्षण किया, उनसे कैंसर, टीके, स्टेम सेल, पोषण, और एथलेटिक प्रदर्शन से जुड़े 50 प्रश्न पूछे। मुख्य परिणाम स्पष्ट था: आधे उत्तरों को समस्याग्रस्त माना गया, और लगभग 20% को अत्यधिक समस्याग्रस्त समझा गया।

BMJ Open में प्रकाशित इस अध्ययन ने ChatGPT, Gemini, Grok, Meta AI, और DeepSeek के उत्तरों का मूल्यांकन किया। दो विशेषज्ञों ने हर उत्तर को स्वतंत्र रूप से रेट किया। हालांकि उपकरण अक्सर परिष्कृत, अधिकारपूर्ण-से लगने वाले उत्तर देते थे, शोधकर्ताओं ने बार-बार तथ्यात्मक त्रुटियाँ, अविश्वसनीय संदर्भ, और असुरक्षित या भ्रामक संकेतों को अस्वीकार न करने की लगभग पूर्ण विफलता पाई।

250 कुल प्रश्नों में से केवल दो को सीधे मना किया गया। यह महत्वपूर्ण है क्योंकि कई स्वास्थ्य प्रश्न तटस्थ, स्थापित तथ्यों के लिए नहीं होते। वे अक्सर चिंताग्रस्त, खुले-ended, या कमजोर धारणाओं पर आधारित होते हैं। ऐसे मामलों में, एक चैटबॉट जो premise को चुनौती दिए बिना सहजता से उत्तर देता है, उस से अधिक नुकसान कर सकता है जो साफ़ कह दे कि वह मदद नहीं कर सकता।

शोधकर्ताओं ने क्या पाया

स्रोत पाठ के अनुसार, पाँचों में से कोई भी सिस्टम विश्वसनीय रूप से पूरी तरह सटीक संदर्भ सूची नहीं बना सका। अध्ययन में मॉडलों के बीच अपेक्षाकृत समान प्रदर्शन भी पाया गया, जिससे संकेत मिलता है कि समस्या किसी एक प्लेटफ़ॉर्म तक सीमित नहीं, बल्कि संरचनात्मक है। इस तुलना में Grok का प्रदर्शन सबसे खराब रहा, जिसकी 58% प्रतिक्रियाएँ समस्याग्रस्त थीं; इसके बाद ChatGPT 52% और Meta AI 50% पर रहे।

विषय के अनुसार प्रदर्शन बदला। टीके और कैंसर में सबसे अच्छे परिणाम मिले, जिसे लेख उन क्षेत्रों में उपलब्ध व्यापक और अपेक्षाकृत संरचित शोध-आधार का परिणाम बताता है। फिर भी, वहाँ भी चैटबॉट्स ने लगभग एक चौथाई समय समस्याग्रस्त उत्तर दिए। पोषण और एथलेटिक प्रदर्शन अधिक चिंताजनक रहे, संभवतः क्योंकि इन विषयों में विरोधाभासी दावे, कमजोर साक्ष्य, और कम-गुणवत्ता वाली ऑनलाइन सामग्री बहुत अधिक है।

जब संकेत खुले-ended हुए तो अंतर तेज़ी से बढ़ गया। अध्ययन में पाया गया कि 32% खुले-ended उत्तरों को अत्यधिक समस्याग्रस्त माना गया, जबकि बंद प्रश्नों के लिए यह आँकड़ा 7% था। यह अंतर प्रयोगशाला के बाहर विशेष रूप से महत्वपूर्ण है, क्योंकि वास्तविक मरीज आम तौर पर बहुविकल्पीय ढंग से प्रश्न नहीं पूछते। वे ऐसे व्यापक प्रश्न पूछते हैं जैसे कौन से सप्लीमेंट सबसे अच्छे हैं, कौन सा उपचार सबसे तेज़ काम करता है, या क्या किसी क्लिनिक के दावे विश्वसनीय लगते हैं।

आत्मविश्वास क्यों जोखिम का हिस्सा है

सबसे चौंकाने वाली बात केवल यह नहीं है कि त्रुटियाँ होती हैं। बात यह है कि त्रुटियाँ persuasive भाषा में पैक की जा सकती हैं। लेख का उदाहरण एक काल्पनिक कैंसर मरीज का है जो AI सिस्टम से वैकल्पिक क्लिनिकों के बारे में पूछता है। चिंता केवल असमर्थित चिकित्सकीय दावों की नहीं, बल्कि नकली या टूटे हुए citations और प्रश्न की framing पर किसी भी प्रकार की प्रतिक्रिया के अभाव की भी है।

स्वास्थ्य संदर्भों में यह संयोजन खतरनाक है। उपयोगकर्ता शैली को substance समझ सकते हैं, विशेषकर जब उत्तर footnoted और पेशेवर ढंग से लिखा हुआ दिखता है। एक चैटबॉट किसी यादृच्छिक forum post से अधिक सुरक्षित लग सकता है क्योंकि वह व्यवस्थित और तटस्थ सुनाई देता है। अध्ययन सुझाव देता है कि यह दिखावट भ्रामक हो सकती है।

स्वास्थ्य जानकारी के लिए केवल स्मरण नहीं, बल्कि निर्णय की आवश्यकता होती है: खराब premises को पहचानना, साक्ष्य की गुणवत्ता में अंतर करना, और urgent cases को योग्य clinicians तक escalat करना। एक मॉडल जो केवल plausible next words की भविष्यवाणी करता है, वह competent लग सकता है, भले ही वह यह सब वास्तव में न कर रहा हो।

मरीजों और प्लेटफ़ॉर्मों के लिए इसका अर्थ

ये निष्कर्ष इस बात को मजबूत करते हैं कि consumer AI systems को विश्वसनीय first-line medical authorities नहीं माना जाना चाहिए। वे प्रश्नों के मसौदे तैयार करने, शब्दावली समझाने, या सामान्य अवधारणाओं में उपयोगकर्ताओं का मार्गदर्शन करने में उपयोगी हो सकते हैं, लेकिन ये लाभ चिकित्सकीय निगरानी की आवश्यकता को समाप्त नहीं करते। oncology, टीकों, या अप्रमाणित therapies जैसे संवेदनशील क्षेत्रों में, केवल आंशिक रूप से गलत उत्तर भी निर्णयों को गलत दिशा में ले जा सकता है।

परिणाम AI कंपनियों के लिए product-design प्रश्न भी उठाते हैं। यदि 250 में से केवल दो प्रश्नों को मना किया गया, तो refusal thresholds स्वास्थ्य उपयोग के लिए बहुत संकीर्ण हो सकती हैं। अधिक लक्षित safeguards में हानिकारक premises का बेहतर detection, uncertainty के बारे में बेहतर calibration, और ऐसे reference systems शामिल हो सकते हैं जो जहाँ समर्थन मौजूद नहीं है वहाँ समर्थन का संकेत न दें।

उतना ही महत्वपूर्ण, model builders को यह पुनर्विचार करना पड़ सकता है कि systems खुले-ended स्वास्थ्य संकेतों को कैसे संभालें। सुरक्षित उत्तर हमेशा सीधा उत्तर नहीं होता। कुछ मामलों में, सही कदम प्रश्न को चुनौती देना, दायरा सीमित करना, या polished response देने के बजाय clinician consultation की सलाह देना है।

विस्तृत सबक

यह अध्ययन यह नहीं दिखाता कि स्वास्थ्य जानकारी में AI की कोई भूमिका नहीं है। यह दिखाता है कि मौजूदा सामान्य-उद्देश्य चैटबॉट्स अभी भी इतनी बार विफल होते हैं कि उपयोगकर्ताओं के लिए उसे पहचानना कठिन होता है। परीक्षण किए गए सिस्टम हर प्रश्न का fluent prose में उत्तर दे सकते थे, लेकिन fluency विश्वसनीयता का proxy नहीं थी।

यह मरीजों और डेवलपर्स, दोनों के लिए मुख्य सबक है। लोग तेजी से डॉक्टर से बात करने से पहले AI की ओर मुड़ते हैं, खासकर जब वे डरे हुए या अधीर हों। यदि कोई सिस्टम वहाँ निश्चितता से उत्तर देता है जहाँ सावधानी चाहिए, तो उपयोगकर्ता को बहुत बाद तक जोखिम का एहसास नहीं होगा। चिकित्सा में यह एक गंभीर failure mode है।

जब तक accuracy, citation integrity, और refusal behavior में काफी सुधार नहीं होता, AI चैटबॉट्स को भरोसेमंद medical guides की बजाय drafting और orientation tools के रूप में देखना बेहतर है। BMJ Open के परिणाम संकेत देते हैं कि उद्योग को अभी सुरक्षा अंतर का एक बड़ा हिस्सा बंद करना बाकी है।

  • शोधकर्ताओं ने पाँच प्रमुख चैटबॉट्स को 50 स्वास्थ्य प्रश्न प्रत्येक पर परखा।
  • सभी उत्तरों में से आधे समस्याग्रस्त थे और लगभग पाँच में से एक अत्यधिक समस्याग्रस्त थी।
  • खुले-ended स्वास्थ्य प्रश्नों में बंद प्रश्नों की तुलना में कहीं खराब परिणाम आए।
  • कोई भी चैटबॉट पूरी तरह सटीक संदर्भ सूचियाँ विश्वसनीय रूप से नहीं बना सका।

यह लेख Medical Xpress की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on medicalxpress.com