एआई ट्रायेज बीच में सबसे अच्छा, किनारों पर नहीं
Nature Medicine में प्रकाशित एक नई संक्षिप्त रिपोर्ट उपभोक्ता एआई के सबसे संवेदनशील उपयोगों में से एक, यानी लोगों को यह बताना कि उन्हें कितनी जल्दी चिकित्सकीय देखभाल चाहिए, पर अधिक स्पष्ट सावधानी जोड़ती है। रिपोर्ट के अनुसार, ChatGPT Health ने मध्यम-तत्काल स्थितियों के लिए उच्च सटीकता दिखाई, लेकिन नैदानिक स्पेक्ट्रम के छोरों पर यह अक्सर गलत निर्णय करता रहा। हल्के मामलों को अक्सर उनकी वास्तविकता से अधिक तत्काल माना गया, जबकि वास्तविक आपात स्थितियों को कभी-कभी बहुत नीचे रैंक किया गया।
यह पैटर्न महत्वपूर्ण है क्योंकि ट्रायेज केवल ज्ञान का अभ्यास नहीं है। यह एक निर्णय प्रणाली है जो तय करती है कि लोग आगे क्या करेंगे। यदि कोई उपकरण मामूली शिकायत वाले व्यक्ति को तत्काल देखभाल लेने को कहता है, तो परिणाम चिंता, अनावश्यक खर्च और पहले से ही दबाव में चल रही क्लीनिकों और आपात विभागों पर अधिक बोझ हो सकता है। लेकिन यदि वही प्रणाली किसी खतरनाक स्थिति वाले व्यक्ति को बताती है कि उसके लक्षण तत्काल नहीं हैं, तो परिणाम कहीं अधिक गंभीर हो सकते हैं।
नई संक्षिप्त रिपोर्ट इन त्रुटियों को एक अभी-अभी परिपक्व होती तकनीक की छोटी-सी खामियों की बजाय सुरक्षा जोखिमों के रूप में प्रस्तुत करती है। यह भेद महत्वपूर्ण है। बड़े भाषा मॉडल अक्सर अपनी वाक्पटुता और ज्ञान-व्याप्ति के आधार पर आँके जाते हैं, लेकिन ट्रायेज को कुछ संकीर्ण और अधिक कठिन चीज़ चाहिए: अनिश्चितता के बीच निरंतर नैदानिक प्राथमिकता। रिपोर्ट से संकेत मिलता है कि ChatGPT Health मध्यम तात्कालिकता वाले मामलों में पर्याप्त सक्षम हो सकता है, लेकिन जहाँ सबसे सुरक्षित उत्तर मायने रखता है, वहाँ कम भरोसेमंद है।
औसत से अधिक महत्वपूर्ण हैं छोर
शीर्षक-स्तरीय सटीकता खतरनाक विफलता-रूपों को छिपा सकती है। कोई मॉडल जो कई नियमित या मध्यम-तत्काल परिदृश्यों में अच्छा प्रदर्शन करता है, फिर भी असुरक्षित हो सकता है यदि वह दुर्लभ आपात स्थितियों या स्व-देखभाल और तत्काल हस्तक्षेप के बीच अंतर करने में संघर्ष करता है। वास्तविक उपयोग में, मरीज अक्सर ठीक इन्हीं क्षणों में मार्गदर्शन के लिए किसी उपकरण पर निर्भर होते हैं।
रिपोर्ट के सार में दो विपरीत लेकिन समान रूप से महत्वपूर्ण प्रवृत्तियों की ओर इशारा किया गया है। एक है गैर-तत्काल स्थितियों को ज़रूरत से ज़्यादा गंभीर मानना। यह प्रणाली को सतर्क दिखा सकता है, लेकिन अत्यधिक सतर्कता मुफ़्त नहीं होती। यह देखभाल-खोज व्यवहार को विकृत कर सकती है, अधिक लोगों को अनावश्यक रूप से तत्काल सेटिंग्स में भेज सकती है और यदि उपयोगकर्ता बार-बार इसे डराने वाला पाते हैं तो भरोसा कम कर सकती है।
दूसरी प्रवृत्ति आपात स्थितियों को कम आँकना है, और यही अधिक गंभीर चिंता है। समय-संवेदी स्थिति को न पहचान पाना वही केंद्रीय विफलता है जिसे ट्रायेज डिज़ाइन में स्वास्थ्य प्रणालियाँ टालने की कोशिश करती हैं। जो उपकरण आपात स्थितियों का कम अनुमान लगाता है, वह सतह पर कुशल या शांत दिख सकता है, लेकिन इसमें ऐसा जोखिम होता है जिसे उच्च-दांव वाली परिस्थितियों में उचित ठहराना कठिन है।
एक ही मूल्यांकन में दोनों प्रकार की त्रुटियों का दिखना महत्वपूर्ण है। यह सुझाव देता है कि मॉडल न तो सिर्फ सतर्क है और न ही सिर्फ लापरवाह। बल्कि, उसमें विभिन्न परिदृश्यों में नैदानिक तात्कालिकता की एक स्थिर आंतरिक समझ की कमी हो सकती है। यह एक गहरी विश्वसनीयता समस्या है, क्योंकि इसे यह मानकर ठीक नहीं किया जा सकता कि प्रणाली हमेशा एक ही तरफ गलती करती है।
एआई-इन-हेल्थ बहस में ये निष्कर्ष क्या जोड़ते हैं
यह संक्षिप्त रिपोर्ट इस व्यापक बहस में आती है कि क्या सामान्य-उद्देश्य वाले भाषा मॉडल मरीजों से जुड़े चिकित्सकीय निर्णयों में सुरक्षित रूप से सहायता कर सकते हैं। इन उपकरणों में रुचि तेज़ी से बढ़ी है क्योंकि वे सुलभ, संवादात्मक और अक्सर प्रभावशाली होते हैं। वे लक्षणों का सार बता सकते हैं, संभावित स्थितियों की व्याख्या कर सकते हैं और ऐसे स्वर में सलाह दे सकते हैं जो व्यक्तिगत और आत्मविश्वासी लगती है।
लेकिन प्रभावशाली होना सटीक होने के बराबर नहीं है, और आत्मविश्वास कैलिब्रेशन के बराबर नहीं है। रिपोर्ट में उद्धृत पूर्व शोध पहले ही यह चिंता जता चुका है कि लोग एआई-जनित चिकित्सीय सलाह पर जरूरत से ज़्यादा भरोसा कर सकते हैं, भले ही वह गलत हो। अन्य उद्धृत अध्ययनों ने नैदानिक निर्णय-निर्माण में कमजोरियाँ दर्ज की हैं और तैनाती से पहले कठोर बाहरी सत्यापन की मांग की है।
यह नई रिपोर्ट यह नहीं कहती कि ट्रायेज में एआई की कोई भूमिका नहीं है। बल्कि यह उन दावों के दायरे को संकुचित करती है जिनमें सुरक्षा के मजबूत दावे किए जा सकते हैं। यदि प्रदर्शन मध्यम-तत्काल मामलों में मजबूत है लेकिन स्केल के दोनों छोरों पर अस्थिर है, तो व्यापक उपभोक्ता स्थिति को उचित ठहराना कठिन हो जाता है। एक ट्रायेज सहायक जो सामान्य, अस्पष्ट शिकायतों के लिए उपयोगी हो सकता है, फिर भी असुरक्षित हो सकता है यदि उपयोगकर्ता यह न समझ सकें कि उस पर कब भरोसा नहीं करना चाहिए।
यह चुनौती तत्काल देखभाल में और भी बढ़ जाती है क्योंकि उपयोगकर्ता अक्सर तनाव में, दर्द में या किसी और के लिए निर्णय ले रहे होते हैं। ऐसे क्षणों में सूक्ष्मता कार्रवाई में बदल जाती है। प्रतीक्षा करने, लक्षणों पर नज़र रखने या आपात चिकित्सा लेने की सलाह को पृष्ठभूमि जानकारी की तरह नहीं पढ़ा जाता। इसे निर्देश की तरह माना जाता है।
डेवलपर्स, चिकित्सकों और नियामकों के लिए निहितार्थ
डेवलपर्स के लिए निहितार्थ सीधा है: स्वास्थ्य ट्रायेज का मूल्यांकन सामान्य चैटबॉट फीचर की तरह नहीं किया जा सकता। इसके लिए किनारी मामलों, दुर्लभ आपात स्थितियों और कम-गंभीर शिकायतों पर लक्षित परीक्षण चाहिए, जो अक्सर अनावश्यक वृद्धि को ट्रिगर करती हैं। समग्र स्कोर पर्याप्त नहीं हैं। सुरक्षा इस पर निर्भर करती है कि सिस्टम कहाँ विफल होता है, सिर्फ इस पर नहीं कि वह कितनी बार विफल होता है।
चिकित्सकों और स्वास्थ्य संगठनों के लिए, ये निष्कर्ष मरीजों के सामने उपयोग होने वाले एआई टूल्स को फ्रंट-डोर गाइडेंस सिस्टम के रूप में अपनाने में सावधानी की आवश्यकता को मजबूत करते हैं। भले ही ऐसे उपकरण जानकारी तक पहुँच बेहतर करें, उनका आउटपुट अभी भी सुरक्षा-सीमाएँ, स्पष्ट अस्वीकरण और सावधानी से डिज़ाइन किए गए एस्केलेशन पथ मांग सकता है। जो मॉडल कई परिस्थितियों में उपयोगी दिखता है, वह भी जोखिम पैदा कर सकता है यदि उपयोगकर्ता उसे चिकित्सकीय रूप से भरोसेमंद मान लें।
नियामकों और नीति-निर्माताओं के लिए, यह रिपोर्ट सिम्पटम चेकर और जनरेटिव एआई उत्पादों पर कड़ी निगरानी के पक्ष को मज़बूत करती है, जो नैदानिक निर्णय-सहायक की तरह काम करते हैं। मुख्य मुद्दा यह नहीं है कि सॉफ़्टवेयर बड़े भाषा मॉडल का उपयोग करता है या किसी अलग आर्किटेक्चर का। मुद्दा यह है कि क्या उसका जोखिम प्रोफ़ाइल वास्तविक परिस्थितियों में प्रदर्शित किया गया है।
बड़ा सबक यह है कि चिकित्सा संवादात्मक बुद्धिमत्ता और निर्णय-विश्वसनीयता के बीच एक खाई उजागर करती है। ChatGPT Health शायद उपयोगी लगने में अच्छा हो, और कुछ मामलों में वास्तव में उपयोगी भी हो सकता है। लेकिन यह मूल्यांकन सुझाता है कि जब सवाल तात्कालिकता का हो, तो यह टूल वहीं सबसे ज़्यादा संघर्ष करता है जहाँ गलती की गुंजाइश सबसे कम है।
यह देखभाल-नेविगेशन में एआई के लिए दरवाज़ा बंद नहीं करता। हालांकि, यह एक अधिक संकीर्ण और साक्ष्य-आधारित भूमिका की वकालत करता है। जब तक ऐसे टूल आपात स्थितियों सहित पूरे तात्कालिकता स्पेक्ट्रम में भरोसेमंद प्रदर्शन नहीं दिखा देते, तब तक उन्हें विश्वसनीय ट्रायेज प्राधिकरण के बजाय सूचना-सहायक के रूप में ही बेहतर माना जाएगा।
यह लेख Nature Medicine की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on nature.com






