चिकित्सकीय प्रवाह-सीमता अभी भी चिकित्सकीय विश्वसनीयता से आगे है
Medical Xpress द्वारा संक्षेपित एक नए अध्ययन से संकेत मिलता है कि लोकप्रिय AI चैटबॉट्स स्वास्थ्य सलाह के विश्वसनीय स्रोत बनने से अभी भी काफी दूर हैं। शोधकर्ताओं ने पाँच व्यापक रूप से उपयोग किए जाने वाले सिस्टमों का परीक्षण किया, उनसे कैंसर, टीके, स्टेम सेल, पोषण, और एथलेटिक प्रदर्शन से जुड़े 50 प्रश्न पूछे। मुख्य परिणाम स्पष्ट था: आधे उत्तरों को समस्याग्रस्त माना गया, और लगभग 20% को अत्यधिक समस्याग्रस्त समझा गया।
BMJ Open में प्रकाशित इस अध्ययन ने ChatGPT, Gemini, Grok, Meta AI, और DeepSeek के उत्तरों का मूल्यांकन किया। दो विशेषज्ञों ने हर उत्तर को स्वतंत्र रूप से रेट किया। हालांकि उपकरण अक्सर परिष्कृत, अधिकारपूर्ण-से लगने वाले उत्तर देते थे, शोधकर्ताओं ने बार-बार तथ्यात्मक त्रुटियाँ, अविश्वसनीय संदर्भ, और असुरक्षित या भ्रामक संकेतों को अस्वीकार न करने की लगभग पूर्ण विफलता पाई।
250 कुल प्रश्नों में से केवल दो को सीधे मना किया गया। यह महत्वपूर्ण है क्योंकि कई स्वास्थ्य प्रश्न तटस्थ, स्थापित तथ्यों के लिए नहीं होते। वे अक्सर चिंताग्रस्त, खुले-ended, या कमजोर धारणाओं पर आधारित होते हैं। ऐसे मामलों में, एक चैटबॉट जो premise को चुनौती दिए बिना सहजता से उत्तर देता है, उस से अधिक नुकसान कर सकता है जो साफ़ कह दे कि वह मदद नहीं कर सकता।
शोधकर्ताओं ने क्या पाया
स्रोत पाठ के अनुसार, पाँचों में से कोई भी सिस्टम विश्वसनीय रूप से पूरी तरह सटीक संदर्भ सूची नहीं बना सका। अध्ययन में मॉडलों के बीच अपेक्षाकृत समान प्रदर्शन भी पाया गया, जिससे संकेत मिलता है कि समस्या किसी एक प्लेटफ़ॉर्म तक सीमित नहीं, बल्कि संरचनात्मक है। इस तुलना में Grok का प्रदर्शन सबसे खराब रहा, जिसकी 58% प्रतिक्रियाएँ समस्याग्रस्त थीं; इसके बाद ChatGPT 52% और Meta AI 50% पर रहे।
विषय के अनुसार प्रदर्शन बदला। टीके और कैंसर में सबसे अच्छे परिणाम मिले, जिसे लेख उन क्षेत्रों में उपलब्ध व्यापक और अपेक्षाकृत संरचित शोध-आधार का परिणाम बताता है। फिर भी, वहाँ भी चैटबॉट्स ने लगभग एक चौथाई समय समस्याग्रस्त उत्तर दिए। पोषण और एथलेटिक प्रदर्शन अधिक चिंताजनक रहे, संभवतः क्योंकि इन विषयों में विरोधाभासी दावे, कमजोर साक्ष्य, और कम-गुणवत्ता वाली ऑनलाइन सामग्री बहुत अधिक है।
जब संकेत खुले-ended हुए तो अंतर तेज़ी से बढ़ गया। अध्ययन में पाया गया कि 32% खुले-ended उत्तरों को अत्यधिक समस्याग्रस्त माना गया, जबकि बंद प्रश्नों के लिए यह आँकड़ा 7% था। यह अंतर प्रयोगशाला के बाहर विशेष रूप से महत्वपूर्ण है, क्योंकि वास्तविक मरीज आम तौर पर बहुविकल्पीय ढंग से प्रश्न नहीं पूछते। वे ऐसे व्यापक प्रश्न पूछते हैं जैसे कौन से सप्लीमेंट सबसे अच्छे हैं, कौन सा उपचार सबसे तेज़ काम करता है, या क्या किसी क्लिनिक के दावे विश्वसनीय लगते हैं।


