वैद्यकीय प्रवाहीपणा अजूनही वैद्यकीय विश्वासार्हतेच्या पुढे आहे

Medical Xpress ने संक्षेपित केलेल्या नव्या अभ्यासातून सूचित होते की लोकप्रिय AI चॅटबॉट्स आरोग्य सल्ल्याचे विश्वासार्ह स्रोत होण्यापासून अजून खूप दूर आहेत. संशोधकांनी पाच व्यापकपणे वापरल्या जाणाऱ्या प्रणालींची चाचणी घेतली, त्यांना कर्करोग, लसी, स्टेम सेल्स, पोषण, आणि क्रीडा कामगिरी याबद्दल 50 प्रश्न विचारले. मुख्य निष्कर्ष थेट होता: निम्मी उत्तरे समस्या-युक्त म्हणून रेट केली गेली, आणि जवळपास 20% अत्यंत समस्या-युक्त मानली गेली.

BMJ Open मध्ये प्रकाशित या अभ्यासात ChatGPT, Gemini, Grok, Meta AI, आणि DeepSeek यांच्या प्रतिसादांचे मूल्यांकन केले गेले. दोन तज्ज्ञांनी प्रत्येक उत्तर स्वतंत्रपणे रेट केले. साधनांनी अनेकदा परिष्कृत, अधिकारवाणी वाटणारी उत्तरे दिली, तरी संशोधकांना वारंवार तथ्यात्मक चुका, अविश्वसनीय संदर्भ, आणि धोकादायक किंवा दिशाभूल करणारे प्रॉम्प्ट नाकारण्यात जवळपास पूर्ण अपयश आढळले.

एकूण 250 प्रश्नांपैकी फक्त दोन थेट नाकारले गेले. हे महत्त्वाचे आहे कारण अनेक आरोग्य प्रश्न तटस्थ, चांगले-स्थापित तथ्यांसाठी नसतात. ते अनेकदा चिंता-ग्रस्त, open-ended, किंवा कमकुवत गृहितकांवर आधारित असतात. अशा वेळी, premise ला आव्हान न देता सहजपणे उत्तर देणारा चॅटबॉट, तो मदत करू शकत नाही असे स्पष्ट सांगणाऱ्यापेक्षा अधिक हानी करू शकतो.

संशोधकांना काय आढळले

मूळ मजकुरानुसार, पाचपैकी कोणतीही प्रणाली पूर्णपणे अचूक reference lists विश्वासार्हपणे तयार करू शकली नाही. या अभ्यासात मॉडेल्समधील कामगिरीही बर्‍यापैकी समान आढळली, ज्यामुळे समस्या एका platformपुरती मर्यादित नसून संरचनात्मक आहे असे सूचित होते. या तुलनेत Grok सर्वात खराब ठरला, 58% प्रतिसाद समस्या-युक्त म्हणून चिन्हांकित झाले; त्यानंतर ChatGPT 52% आणि Meta AI 50% होते.

विषयानुसार कामगिरी बदलली. लसी आणि कर्करोगात सर्वोत्तम परिणाम दिसले, ज्याचे श्रेय लेख त्या क्षेत्रांतील मोठ्या आणि तुलनेने संरचित संशोधन-आधाराला देतो. तरीही, तिथेसुद्धा चॅटबॉट्सनी जवळपास चतुर्थांश वेळा समस्या-युक्त उत्तरे दिली. पोषण आणि क्रीडा कामगिरी अधिक चिंताजनक ठरली, कदाचित कारण त्या विषयांभोवती परस्परविरोधी दावे, कमकुवत पुरावे, आणि निकृष्ट ऑनलाइन सामग्री मोठ्या प्रमाणावर आहे.

प्रॉम्प्ट्स open-ended झाल्यावर फरक तीव्र झाला. अभ्यासात 32% open-ended उत्तरे अत्यंत समस्या-युक्त म्हणून रेट केली गेली, तर closed questions साठी हे प्रमाण 7% होते. प्रयोगशाळेबाहेर हे विशेष महत्त्वाचे आहे, कारण प्रत्यक्ष रुग्ण सामान्यतः multiple-choice स्वरूपात प्रश्न विचारत नाहीत. ते असे विस्तृत प्रश्न विचारतात की कोणती supplements सर्वोत्तम आहेत, कोणते उपचार सर्वात जलद काम करतात, किंवा एखाद्या क्लिनिकचे दावे विश्वासार्ह वाटतात का.