AI को क्लिनिकल परीक्षण के दौरान रखना
Nature Medicine में प्रकाशित एक अध्ययन ने OpenAI के ChatGPT को चिकित्सा ट्राइएज सिफारिशें देने की क्षमता के संरचित मूल्यांकन के अधीन किया है — यह आपातकालीन देखभाल में महत्वपूर्ण पहला कदम है जहां रोगियों को उनकी स्थिति की तात्कालिकता के आधार पर वर्गीकृत किया जाता है। यह शोध यह सुनिश्चित करने के लिए अब तक के सबसे कठोर आकलनों में से एक है कि क्या बड़े भाषा मॉडल क्लिनिकल सेटिंग्स में विश्वसनीय रूप से काम कर सकते हैं जहां त्रुटियों के घातक परिणाम हो सकते हैं।
ट्राइएज AI सिस्टम के लिए एक विशेष रूप से चुनौतीपूर्ण परीक्षा है क्योंकि इसमें सूचना की कई धाराओं को एकीकृत करना आवश्यक है — रिपोर्ट किए गए लक्षण, रोगी का इतिहास, महत्वपूर्ण संकेत, और संदर्भ संकेत — यह त्वरित निर्णय लेने के लिए कि रोगी को कितनी तेजी से देखभाल की आवश्यकता है। किसी भी दिशा में गलत निर्णय गंभीर जोखिम रखते हैं: एक महत्वपूर्ण रोगी को कम ट्राइएज करने से उपचार में देरी और रोकी जा सकने वाली मृत्यु हो सकती है, जबकि एक स्थिर रोगी को अधिक ट्राइएज करने से दुर्लभ आपातकालीन संसाधनों की बर्बादी होती है।
अध्ययन डिजाइन और पद्धति
शोधकर्ताओं ने मानकीकृत क्लिनिकल विग्नेट का उपयोग करके एक संरचित परीक्षा तैयार की — रोगी प्रस्तुति के विस्तृत लिखित विवरण जो चिकित्सा शिक्षा और बोर्ड परीक्षाओं में आमतौर पर उपयोग किए जाते हैं। प्रत्येक विग्नेट में रोगी की प्रस्तुत शिकायत, प्रासंगिक चिकित्सा इतिहास, महत्वपूर्ण संकेत, और शारीरिक परीक्षा निष्कर्षों के बारे में जानकारी शामिल थी।
ChatGPT को प्रत्येक मामले को पांच मानक ट्राइएज श्रेणियों में से एक को सौंपने के लिए कहा गया था, जो तत्काल हस्तक्षेप की आवश्यकता वाली तत्काल जीवन-घातक आपातकालीन स्थितियों से लेकर गैर-आपातकालीन स्थितियों तक होती हैं जो सुरक्षित रूप से नियमित देखभाल की प्रतीक्षा कर सकती हैं। AI की सिफारिशों की तुलना तब अनुभवी आपातकालीन चिकित्सा चिकित्सकों द्वारा दिए गए सर्वसम्मति ट्राइएज असाइनमेंट के विरुद्ध की गई थी।
अध्ययन ने कई चर को नियंत्रित किया जो AI चिकित्सा प्रदर्शन के पिछले मूल्यांकन में जटिल हो गए थे। प्रॉम्प्ट इंजीनियरिंग को मानकीकृत किया गया था ताकि मॉडल को सवाल पूछे जाने के तरीके में भिन्नता को दूर किया जा सके। संगति का आकलन करने के लिए कई बार परीक्षण किए गए, और शोधकर्ताओं ने न केवल अंतिम ट्राइएज असाइनमेंट की सटीकता का विश्लेषण किया बल्कि मॉडल द्वारा प्रदान की गई तर्क का भी विश्लेषण किया।
मुख्य निष्कर्ष
अध्ययन में पाया गया कि ChatGPT ने तीव्रता के विभिन्न स्तरों पर मिश्रित परिणाम दिए। सबसे महत्वपूर्ण मामलों के लिए — रोगी जो स्पष्ट जीवन-घातक आपातकालीन स्थितियों जैसे कार्डिएक अरेस्ट, प्रमुख आघात, या गंभीर श्वसन संकट प्रस्तुत करते हैं — मॉडल ने आम तौर पर अच्छा प्रदर्शन किया, अधिकांश मामलों में तत्काल हस्तक्षेप की आवश्यकता को सही ढंग से पहचानते हुए।
हालांकि, मध्य ट्राइएज श्रेणियों में प्रदर्शन गिरा, जहां तत्काल और अर्ध-तत्काल मामलों के बीच अंतर को अधिक सूक्ष्म क्लिनिकल निर्णय की आवश्यकता होती है। ये ठीक वही मामले हैं जहां अनुभवी क्लिनिशियन के बीच भी ट्राइएज त्रुटियां सबसे आम हैं, और जहां गलत वर्गीकरण के परिणाम सबसे क्लिनिकल रूप से महत्वपूर्ण हैं।
मॉडल ने एक ही मामलों के दोहराए गए मूल्यांकन में असंगति भी प्रदर्शित की। जब समान क्लिनिकल विग्नेट कई बार प्रस्तुत किए गए, तो ChatGPT ने कभी-कभी विभिन्न ट्राइएज श्रेणियों को सौंपा, एक खोज जो वास्तविक दुनिया की सेटिंग्स में LLM-आधारित क्लिनिकल उपकरणों की विश्वसनीयता के बारे में चिंता उठाती है जहां संगति आवश्यक है।
- ChatGPT स्पष्ट रूप से महत्वपूर्ण मामलों पर सबसे अच्छा प्रदर्शन करता है लेकिन सूक्ष्म मध्य-तीव्रता ट्राइएज निर्णयों में संघर्ष करता है
- मॉडल ने समान मामलों को कई बार प्रस्तुत किए जाने पर असंगति दिखाई
- तर्क की गुणवत्ता में काफी भिन्नता देखी गई, कुछ आकलनों में ध्वनि क्लिनिकल तर्क प्रदर्शित हुआ और अन्य स्पष्ट confabulation को प्रतिबिंबित करते हैं
- अध्ययन ने कठोर मूल्यांकन सुनिश्चित करने के लिए मानकीकृत विग्नेट और नियंत्रित प्रॉम्प्टिंग का उपयोग किया
स्वास्थ्यसेवा AI के निहितार्थ
निष्कर्षों के स्वास्थ्यसेवा वर्कफ़्लो में AI को एकीकृत करने के बढ़ते आंदोलन के लिए महत्वपूर्ण निहितार्थ हैं। चिकित्सा AI के समर्थकों का तर्क है कि बड़े भाषा मॉडल आपातकालीन चिकित्सकों और ट्राइएज नर्सों की गंभीर कमी को कम करने में मदद कर सकते हैं, विशेष रूप से कम संसाधन वाली स्वास्थ्यसेवा सेटिंग्स और विकासशील देशों में जहां प्रशिक्षित चिकित्सा पेशेवरों तक पहुंच सीमित है।
अध्ययन से पता चलता है कि जबकि ChatGPT एक पूरक उपकरण के रूप में उपयोगी हो सकता है — क्लिनिशियन को अंतर निदान के माध्यम से सोचने या संभावित रूप से अनदेखी विचारों को चिह्नित करने में मदद करता है — यह अभी तक स्वायत्त ट्राइएज प्रणाली के रूप में काम करने के लिए पर्याप्त विश्वसनीय नहीं है। दोहराए गए मूल्यांकन में असंगति विशेष रूप से चिंताजनक है, क्योंकि क्लिनिकल निर्णय समर्थन उपकरणों को समान इनपुट दिए जाने पर समान सिफारिश देनी चाहिए।
शोधकर्ताओं ने नोट किया कि उनके निष्कर्ष विशेष रूप से ChatGPT के परीक्षण किए गए संस्करण पर लागू होते हैं और मॉडल क्षमताएं तेजी से विकसित हो रही हैं। बेहतर तर्क क्षमताओं और चिकित्सा fine-tuning के साथ नए मॉडल काफी बेहतर प्रदर्शन कर सकते हैं। हालांकि, वे केवल मानकीकृत परीक्षण मामलों के बजाय वास्तविक दुनिया के रोगी परिणामों के विरुद्ध व्यापक सत्यापन के बिना क्लिनिकल ट्राइएज में किसी भी AI सिस्टम को तैनात करने के खिलाफ सावधानी बरतते हैं।
नियामक प्रश्न
अध्ययन नियामकों के सामने आने वाली चुनौतियों को भी उजागर करता है क्योंकि AI उपकरण तेजी से क्लिनिकल अभ्यास में अपना रास्ता खोज रहे हैं। कई देशों में, चिकित्सा निर्णय समर्थन सॉफ्टवेयर चिकित्सा उपकरण के रूप में नियामक अनुमोदन के अधीन है। हालांकि, AI मॉडल अपडेट की तेजी — हर कुछ महीनों में नए संस्करण जारी किए जाते हैं — एक नियामक चुनौती पैदा करती है, क्योंकि प्रत्येक अपडेट संभवतः सिस्टम के क्लिनिकल प्रदर्शन को बदल सकता है।
U.S. Food and Drug Administration AI-आधारित चिकित्सा उपकरणों को विनियमित करने के लिए एक ढांचा विकसित कर रहा है, जिसमें निरंतर सीखने वाली प्रणालियों के प्रावधान शामिल हैं जो समय के साथ विकसित होती हैं। लेकिन ढांचा अभी भी प्रगति पर है, और AI विकास की गति और नियामक अनुकूलन की गति के बीच की खाई बढ़ती रहती है।
आगे की ओर
Nature Medicine अध्ययन सबूतों के बढ़ते निकाय में योगदान देता है जो सुझाता है कि बड़े भाषा मॉडल चिकित्सा अनुप्रयोगों में असली वादे दिखाते हैं लेकिन स्वायत्त क्लिनिकल तैनाती के लिए तैयार नहीं हैं। आगे का रास्ता संभवतः सावधानीपूर्वक डिजाइन की गई मानव-AI सहयोग प्रणालियों को शामिल करता है जहां मॉडल की सिफारिशें हमेशा मानव समीक्षा के अधीन होती हैं, क्लिनिकल परिणामों की निरंतर निगरानी के साथ यह सुनिश्चित करने के लिए कि AI सहायता वास्तव में रोगी देखभाल में सुधार कर रही है न कि नए जोखिम पेश कर रही है।
आपातकालीन विभागों के लिए जो पहले से ही अत्यधिक भीड़ और कर्मचारियों की कमी से जूझ रहे हैं, यहां तक कि एक अपूर्ण AI उपकरण जो कुछ चूक गई महत्वपूर्ण मामलों को पकड़ता है, जीवन बचा सकता है। लेकिन ऐसे उपकरण को जिम्मेदारी से तैनात करने के लिए इस अध्ययन द्वारा दिए गए तरह की कठोर, संरचित मूल्यांकन की आवश्यकता होती है — केवल चुनिंदा उदाहरणों पर प्रभावशाली प्रदर्शन नहीं।
यह लेख Nature Medicine द्वारा रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें।



