ChatGPT Health ट्रायेज अध्ययन ने आपात सलाह में सुरक्षा खामियाँ पाईं

एआई ट्रायेज बीच में सबसे अच्छा, किनारों पर नहीं

Nature Medicine में प्रकाशित एक नई संक्षिप्त रिपोर्ट उपभोक्ता एआई के सबसे संवेदनशील उपयोगों में से एक, यानी लोगों को यह बताना कि उन्हें कितनी जल्दी चिकित्सकीय देखभाल चाहिए, पर अधिक स्पष्ट सावधानी जोड़ती है। रिपोर्ट के अनुसार, ChatGPT Health ने मध्यम-तत्काल स्थितियों के लिए उच्च सटीकता दिखाई, लेकिन नैदानिक स्पेक्ट्रम के छोरों पर यह अक्सर गलत निर्णय करता रहा। हल्के मामलों को अक्सर उनकी वास्तविकता से अधिक तत्काल माना गया, जबकि वास्तविक आपात स्थितियों को कभी-कभी बहुत नीचे रैंक किया गया।

यह पैटर्न महत्वपूर्ण है क्योंकि ट्रायेज केवल ज्ञान का अभ्यास नहीं है। यह एक निर्णय प्रणाली है जो तय करती है कि लोग आगे क्या करेंगे। यदि कोई उपकरण मामूली शिकायत वाले व्यक्ति को तत्काल देखभाल लेने को कहता है, तो परिणाम चिंता, अनावश्यक खर्च और पहले से ही दबाव में चल रही क्लीनिकों और आपात विभागों पर अधिक बोझ हो सकता है। लेकिन यदि वही प्रणाली किसी खतरनाक स्थिति वाले व्यक्ति को बताती है कि उसके लक्षण तत्काल नहीं हैं, तो परिणाम कहीं अधिक गंभीर हो सकते हैं।

नई संक्षिप्त रिपोर्ट इन त्रुटियों को एक अभी-अभी परिपक्व होती तकनीक की छोटी-सी खामियों की बजाय सुरक्षा जोखिमों के रूप में प्रस्तुत करती है। यह भेद महत्वपूर्ण है। बड़े भाषा मॉडल अक्सर अपनी वाक्पटुता और ज्ञान-व्याप्ति के आधार पर आँके जाते हैं, लेकिन ट्रायेज को कुछ संकीर्ण और अधिक कठिन चीज़ चाहिए: अनिश्चितता के बीच निरंतर नैदानिक प्राथमिकता। रिपोर्ट से संकेत मिलता है कि ChatGPT Health मध्यम तात्कालिकता वाले मामलों में पर्याप्त सक्षम हो सकता है, लेकिन जहाँ सबसे सुरक्षित उत्तर मायने रखता है, वहाँ कम भरोसेमंद है।

औसत से अधिक महत्वपूर्ण हैं छोर

शीर्षक-स्तरीय सटीकता खतरनाक विफलता-रूपों को छिपा सकती है। कोई मॉडल जो कई नियमित या मध्यम-तत्काल परिदृश्यों में अच्छा प्रदर्शन करता है, फिर भी असुरक्षित हो सकता है यदि वह दुर्लभ आपात स्थितियों या स्व-देखभाल और तत्काल हस्तक्षेप के बीच अंतर करने में संघर्ष करता है। वास्तविक उपयोग में, मरीज अक्सर ठीक इन्हीं क्षणों में मार्गदर्शन के लिए किसी उपकरण पर निर्भर होते हैं।

रिपोर्ट के सार में दो विपरीत लेकिन समान रूप से महत्वपूर्ण प्रवृत्तियों की ओर इशारा किया गया है। एक है गैर-तत्काल स्थितियों को ज़रूरत से ज़्यादा गंभीर मानना। यह प्रणाली को सतर्क दिखा सकता है, लेकिन अत्यधिक सतर्कता मुफ़्त नहीं होती। यह देखभाल-खोज व्यवहार को विकृत कर सकती है, अधिक लोगों को अनावश्यक रूप से तत्काल सेटिंग्स में भेज सकती है और यदि उपयोगकर्ता बार-बार इसे डराने वाला पाते हैं तो भरोसा कम कर सकती है।

दूसरी प्रवृत्ति आपात स्थितियों को कम आँकना है, और यही अधिक गंभीर चिंता है। समय-संवेदी स्थिति को न पहचान पाना वही केंद्रीय विफलता है जिसे ट्रायेज डिज़ाइन में स्वास्थ्य प्रणालियाँ टालने की कोशिश करती हैं। जो उपकरण आपात स्थितियों का कम अनुमान लगाता है, वह सतह पर कुशल या शांत दिख सकता है, लेकिन इसमें ऐसा जोखिम होता है जिसे उच्च-दांव वाली परिस्थितियों में उचित ठहराना कठिन है।

एक ही मूल्यांकन में दोनों प्रकार की त्रुटियों का दिखना महत्वपूर्ण है। यह सुझाव देता है कि मॉडल न तो सिर्फ सतर्क है और न ही सिर्फ लापरवाह। बल्कि, उसमें विभिन्न परिदृश्यों में नैदानिक तात्कालिकता की एक स्थिर आंतरिक समझ की कमी हो सकती है। यह एक गहरी विश्वसनीयता समस्या है, क्योंकि इसे यह मानकर ठीक नहीं किया जा सकता कि प्रणाली हमेशा एक ही तरफ गलती करती है।

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

More in Health

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

कम-खुराक डिगॉक्सिन मुख्य लक्ष्य से चूका, लेकिन हृदय विफलता की कम घटनाओं के संकेत मिले

1,001 मरीजों पर किए गए एक यादृच्छिक परीक्षण में कम-खुराक डिगॉक्सिन ने हृदय विफलता के मुख्य संयुक्त समापन बिंदु को महत्वपूर्ण रूप से कम नहीं किया, हालांकि घटनाओं की संख्या प्लेसिबो से कम रुझान में रही।

Read article

एआई-इन-हेल्थ बहस में ये निष्कर्ष क्या जोड़ते हैं

यह संक्षिप्त रिपोर्ट इस व्यापक बहस में आती है कि क्या सामान्य-उद्देश्य वाले भाषा मॉडल मरीजों से जुड़े चिकित्सकीय निर्णयों में सुरक्षित रूप से सहायता कर सकते हैं। इन उपकरणों में रुचि तेज़ी से बढ़ी है क्योंकि वे सुलभ, संवादात्मक और अक्सर प्रभावशाली होते हैं। वे लक्षणों का सार बता सकते हैं, संभावित स्थितियों की व्याख्या कर सकते हैं और ऐसे स्वर में सलाह दे सकते हैं जो व्यक्तिगत और आत्मविश्वासी लगती है।

लेकिन प्रभावशाली होना सटीक होने के बराबर नहीं है, और आत्मविश्वास कैलिब्रेशन के बराबर नहीं है। रिपोर्ट में उद्धृत पूर्व शोध पहले ही यह चिंता जता चुका है कि लोग एआई-जनित चिकित्सीय सलाह पर जरूरत से ज़्यादा भरोसा कर सकते हैं, भले ही वह गलत हो। अन्य उद्धृत अध्ययनों ने नैदानिक निर्णय-निर्माण में कमजोरियाँ दर्ज की हैं और तैनाती से पहले कठोर बाहरी सत्यापन की मांग की है।

यह नई रिपोर्ट यह नहीं कहती कि ट्रायेज में एआई की कोई भूमिका नहीं है। बल्कि यह उन दावों के दायरे को संकुचित करती है जिनमें सुरक्षा के मजबूत दावे किए जा सकते हैं। यदि प्रदर्शन मध्यम-तत्काल मामलों में मजबूत है लेकिन स्केल के दोनों छोरों पर अस्थिर है, तो व्यापक उपभोक्ता स्थिति को उचित ठहराना कठिन हो जाता है। एक ट्रायेज सहायक जो सामान्य, अस्पष्ट शिकायतों के लिए उपयोगी हो सकता है, फिर भी असुरक्षित हो सकता है यदि उपयोगकर्ता यह न समझ सकें कि उस पर कब भरोसा नहीं करना चाहिए।

यह चुनौती तत्काल देखभाल में और भी बढ़ जाती है क्योंकि उपयोगकर्ता अक्सर तनाव में, दर्द में या किसी और के लिए निर्णय ले रहे होते हैं। ऐसे क्षणों में सूक्ष्मता कार्रवाई में बदल जाती है। प्रतीक्षा करने, लक्षणों पर नज़र रखने या आपात चिकित्सा लेने की सलाह को पृष्ठभूमि जानकारी की तरह नहीं पढ़ा जाता। इसे निर्देश की तरह माना जाता है।

डेवलपर्स, चिकित्सकों और नियामकों के लिए निहितार्थ

डेवलपर्स के लिए निहितार्थ सीधा है: स्वास्थ्य ट्रायेज का मूल्यांकन सामान्य चैटबॉट फीचर की तरह नहीं किया जा सकता। इसके लिए किनारी मामलों, दुर्लभ आपात स्थितियों और कम-गंभीर शिकायतों पर लक्षित परीक्षण चाहिए, जो अक्सर अनावश्यक वृद्धि को ट्रिगर करती हैं। समग्र स्कोर पर्याप्त नहीं हैं। सुरक्षा इस पर निर्भर करती है कि सिस्टम कहाँ विफल होता है, सिर्फ इस पर नहीं कि वह कितनी बार विफल होता है।

चिकित्सकों और स्वास्थ्य संगठनों के लिए, ये निष्कर्ष मरीजों के सामने उपयोग होने वाले एआई टूल्स को फ्रंट-डोर गाइडेंस सिस्टम के रूप में अपनाने में सावधानी की आवश्यकता को मजबूत करते हैं। भले ही ऐसे उपकरण जानकारी तक पहुँच बेहतर करें, उनका आउटपुट अभी भी सुरक्षा-सीमाएँ, स्पष्ट अस्वीकरण और सावधानी से डिज़ाइन किए गए एस्केलेशन पथ मांग सकता है। जो मॉडल कई परिस्थितियों में उपयोगी दिखता है, वह भी जोखिम पैदा कर सकता है यदि उपयोगकर्ता उसे चिकित्सकीय रूप से भरोसेमंद मान लें।

नियामकों और नीति-निर्माताओं के लिए, यह रिपोर्ट सिम्पटम चेकर और जनरेटिव एआई उत्पादों पर कड़ी निगरानी के पक्ष को मज़बूत करती है, जो नैदानिक निर्णय-सहायक की तरह काम करते हैं। मुख्य मुद्दा यह नहीं है कि सॉफ़्टवेयर बड़े भाषा मॉडल का उपयोग करता है या किसी अलग आर्किटेक्चर का। मुद्दा यह है कि क्या उसका जोखिम प्रोफ़ाइल वास्तविक परिस्थितियों में प्रदर्शित किया गया है।

बड़ा सबक यह है कि चिकित्सा संवादात्मक बुद्धिमत्ता और निर्णय-विश्वसनीयता के बीच एक खाई उजागर करती है। ChatGPT Health शायद उपयोगी लगने में अच्छा हो, और कुछ मामलों में वास्तव में उपयोगी भी हो सकता है। लेकिन यह मूल्यांकन सुझाता है कि जब सवाल तात्कालिकता का हो, तो यह टूल वहीं सबसे ज़्यादा संघर्ष करता है जहाँ गलती की गुंजाइश सबसे कम है।

यह देखभाल-नेविगेशन में एआई के लिए दरवाज़ा बंद नहीं करता। हालांकि, यह एक अधिक संकीर्ण और साक्ष्य-आधारित भूमिका की वकालत करता है। जब तक ऐसे टूल आपात स्थितियों सहित पूरे तात्कालिकता स्पेक्ट्रम में भरोसेमंद प्रदर्शन नहीं दिखा देते, तब तक उन्हें विश्वसनीय ट्रायेज प्राधिकरण के बजाय सूचना-सहायक के रूप में ही बेहतर माना जाएगा।

यह लेख Nature Medicine की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

More in Health

EnGene की बिकवाली ने ब्लैडर कैंसर कार्यक्रम पर नया दबाव डाला

EnGene के प्रयोगात्मक ब्लैडर कैंसर उपचार के अपडेटेड फेज़ 2 नतीजों ने बाज़ार में तीखी प्रतिक्रिया भड़काई और थेरेपी के भविष्य को लेकर नए सवाल खड़े कर दिए।

Read article

Originally published on nature.com

एआई ट्रायेज बीच में सबसे अच्छा, किनारों पर नहीं

औसत से अधिक महत्वपूर्ण हैं छोर

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

More in Health

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

कम-खुराक डिगॉक्सिन मुख्य लक्ष्य से चूका, लेकिन हृदय विफलता की कम घटनाओं के संकेत मिले

Read article

एआई-इन-हेल्थ बहस में ये निष्कर्ष क्या जोड़ते हैं

डेवलपर्स, चिकित्सकों और नियामकों के लिए निहितार्थ

यह लेख Nature Medicine की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

More in Health

EnGene की बिकवाली ने ब्लैडर कैंसर कार्यक्रम पर नया दबाव डाला

Read article

Originally published on nature.com

अध्ययन ने ChatGPT Health की ट्रायेज सलाह में सुरक्षा खामियों को चिह्नित किया

एआई ट्रायेज बीच में सबसे अच्छा, किनारों पर नहीं

औसत से अधिक महत्वपूर्ण हैं छोर

कम-खुराक डिगॉक्सिन मुख्य लक्ष्य से चूका, लेकिन हृदय विफलता की कम घटनाओं के संकेत मिले

एआई-इन-हेल्थ बहस में ये निष्कर्ष क्या जोड़ते हैं

डेवलपर्स, चिकित्सकों और नियामकों के लिए निहितार्थ

EnGene की बिकवाली ने ब्लैडर कैंसर कार्यक्रम पर नया दबाव डाला

Comments (0)

Related Articles

ADC क्षमता योजनाएं वापस लेने के बाद Daiichi Sankyo को लगभग 1 अरब डॉलर का झटका

FDA नेतृत्व में संभावित फेरबदल की योजनाओं पर रिपोर्टों ने एजेंसी की प्राथमिकताओं को नई जांच के दायरे में ला दिया

टाइप 2 डायबिटीज़ में शुरुआती ग्लूकागन बदलावों को फैटी लिवर रोग से जोड़ा जा रहा है

अत्यंत संवेदनशील TDP-43 टेस्ट FTLD से जुड़ी पहचान को अधिक सटीक बना सकती है

Keep Reading

अध्ययन ने ChatGPT Health की ट्रायेज सलाह में सुरक्षा खामियों को चिह्नित किया

एआई ट्रायेज बीच में सबसे अच्छा, किनारों पर नहीं

औसत से अधिक महत्वपूर्ण हैं छोर

कम-खुराक डिगॉक्सिन मुख्य लक्ष्य से चूका, लेकिन हृदय विफलता की कम घटनाओं के संकेत मिले

एआई-इन-हेल्थ बहस में ये निष्कर्ष क्या जोड़ते हैं

डेवलपर्स, चिकित्सकों और नियामकों के लिए निहितार्थ

EnGene की बिकवाली ने ब्लैडर कैंसर कार्यक्रम पर नया दबाव डाला

Comments (0)

Related Articles

ADC क्षमता योजनाएं वापस लेने के बाद Daiichi Sankyo को लगभग 1 अरब डॉलर का झटका

FDA नेतृत्व में संभावित फेरबदल की योजनाओं पर रिपोर्टों ने एजेंसी की प्राथमिकताओं को नई जांच के दायरे में ला दिया

टाइप 2 डायबिटीज़ में शुरुआती ग्लूकागन बदलावों को फैटी लिवर रोग से जोड़ा जा रहा है

अत्यंत संवेदनशील TDP-43 टेस्ट FTLD से जुड़ी पहचान को अधिक सटीक बना सकती है

Keep Reading