हार्वर्ड अध्ययन में कहा गया: OpenAI मॉडल ने शुरुआती ER निदान में डॉक्टरों को पीछे छोड़ा

सबसे ऊँचे दाँव पर AI का प्रदर्शन सबसे मजबूत रहा

इस सप्ताह Science में प्रकाशित हार्वर्ड-नेतृत्व वाला एक अध्ययन चिकित्सा में कृत्रिम बुद्धिमत्ता के संभावित उपयोग को लेकर बहस में एक महत्वपूर्ण नया डेटा-पॉइंट जोड़ता है। पेपर के सबसे ध्यान से देखे गए प्रयोगों में से एक में, शोधकर्ताओं ने Beth Israel Deaconess Medical Center में वास्तविक आपातकालीन-कक्ष मामलों के आधार पर OpenAI मॉडलों के निदानों की तुलना दो आंतरिक चिकित्सा अटेंडिंग चिकित्सकों के निदानों से की। अध्ययन के अनुसार, OpenAI का o1 मॉडल प्रत्येक निदान चरण पर मानव चिकित्सकों के बराबर या उनसे बेहतर रहा, और सबसे स्पष्ट बढ़त प्रारंभिक ER ट्रायेज में दिखाई दी।

यह इसलिए महत्वपूर्ण है क्योंकि ट्रायेज वह चरण है जहाँ चिकित्सकों के पास सबसे कम जानकारी और सबसे कम समय होता है। अध्ययन में कहा गया कि अंतर विशेष रूप से उस शुरुआती बिंदु पर स्पष्ट थे, जब चिकित्सक और अस्पताल मरीज की स्थिति के सबसे संभावित कारण की पहचान करने की कोशिश कर रहे होते हैं, इससे पहले कि व्यापक जाँचें उपलब्ध हों। उस शुरुआती परिदृश्य में, शोधकर्ताओं ने बताया कि o1 ने 67% मामलों में बिल्कुल सही या बहुत करीब निदान दिया, जबकि एक अटेंडिंग चिकित्सक के लिए यह 55% और दूसरे के लिए 50% था।

तुलना कैसे तैयार की गई

शोध दल का नेतृत्व हार्वर्ड मेडिकल स्कूल और Beth Israel Deaconess के चिकित्सकों तथा कंप्यूटर वैज्ञानिकों ने किया। स्रोत सामग्री में उजागर आपातकालीन-कक्ष प्रयोग में टीम ने Beth Israel ER में आए 76 मरीजों पर ध्यान केंद्रित किया। OpenAI के दो मॉडलों, o1 और 4o, द्वारा उत्पन्न निदानों की तुलना दो आंतरिक चिकित्सा अटेंडिंग चिकित्सकों द्वारा दिए गए निदानों से की गई।

इसके बाद इन आउटपुट्स की समीक्षा दो अन्य अटेंडिंग चिकित्सकों ने की, जिन्हें यह नहीं बताया गया था कि कौन-सा निदान मनुष्यों का है और कौन-सा AI सिस्टम का। यह ब्लाइंडिंग महत्वपूर्ण है क्योंकि यह इस जोखिम को कम करती है कि समीक्षक गुणवत्ता के बजाय अपेक्षा के आधार पर किसी एक स्रोत को प्राथमिकता दें।

शोधकर्ताओं ने यह भी ज़ोर दिया कि उन्होंने मॉडलों को डेटा देने से पहले मरीजों के डेटा को पूर्व-संसाधित नहीं किया। इसके बजाय, AI सिस्टम्स को वही जानकारी मिली जो उस समय इलेक्ट्रॉनिक मेडिकल रिकॉर्ड में उपलब्ध थी जब प्रत्येक निदान किया गया। यह बात AI चिकित्सा अनुसंधान की एक बार-बार होने वाली आलोचना को सीधे संबोधित करती है: कि मॉडल तभी प्रभावशाली दिख सकते हैं जब उन्हें साफ़-सुथरा, सरल या असामान्य रूप से पूर्ण इनपुट दिया जाए। यहाँ शोध दल का दावा है कि मॉडलों का परीक्षण उसी अधूरी, खुरदरी नैदानिक तस्वीर पर किया गया जो वास्तविक अभ्यास में उपलब्ध होती है।

EU hits Google with €890 million DMA fine

The European Commission fined Alphabet for two Digital Markets Act violations tied to Google Search and the Play Store, and ordered changes within 60 days.

Read article

परिणामों का अर्थ क्या है और क्या नहीं

शीर्षक-स्तर का परिणाम उल्लेखनीय है, लेकिन इसे सावधानी के साथ समझना चाहिए। स्रोत सामग्री एक निदान-प्रदर्शन अध्ययन का वर्णन करती है, न कि चिकित्सकों के स्थानापन्न होने की परीक्षा का। ट्रायेज पर अधिक सटीक निदान सुझाव देना, मरीज की देखभाल को स्वतंत्र रूप से प्रबंधित करने, जोखिम संप्रेषित करने, उपचार आदेशित करने या परिणामों की जिम्मेदारी लेने के बराबर नहीं है। आपातकालीन चिकित्सा इन सभी कार्यों पर निर्भर करती है, और TechCrunch की रिपोर्ट स्पष्ट रूप से कहती है कि अध्ययन में यह दावा नहीं किया गया कि डॉक्टरों को बदला जा सकता है।

फिर भी, यह अध्ययन इस तर्क को मज़बूत करता है कि बड़े भाषा मॉडल तीव्र देखभाल में अत्यंत उपयोगी निर्णय-सहायता उपकरण बन सकते हैं, खासकर तब जब जानकारी सीमित हो और समय का दबाव तीव्र हो। यदि कोई मॉडल पहले ही निदान-क्षेत्र को संकुचित करने में मदद कर सके, तो यह उपचार-उन्नयन, परीक्षण या विशेषज्ञ-भागीदारी की गति बढ़ा सकता है। यह चिकित्सकों पर भारी संज्ञानात्मक दबाव के समय छूटे हुए संभावित निदानों के विरुद्ध एक जाँच का काम भी कर सकता है।

अध्ययन के प्रमुख लेखकों में से एक, हार्वर्ड मेडिकल स्कूल के Arjun Manrai ने स्कूल की प्रेस विज्ञप्ति में कहा कि टीम ने AI का परीक्षण व्यापक मानकों के विरुद्ध किया और पाया कि उसने पेपर में उपयोग किए गए चिकित्सक-आधार-रेखाओं के साथ-साथ पिछले मॉडलों से भी बेहतर प्रदर्शन किया। उपलब्ध स्रोत-पाठ की सीमाओं के भीतर, यह शोधकर्ताओं की अपनी व्याख्या का सबसे स्पष्ट कथन है: केवल यह नहीं कि AI प्रतिस्पर्धी था, बल्कि यह कि एक मॉडल ने इस अध्ययन-डिज़ाइन में नया आंतरिक मानक स्थापित किया।

ट्रायेज क्यों निर्णायक युद्ध-भूमि है

ट्रायेज AI सिस्टम्स के लिए एक असाधारण रूप से उजागर करने वाला वातावरण है क्योंकि यह अनिश्चितता को संकुचित करता है। चिकित्सक के पास अक्सर एक संक्षिप्त नोट, लक्षणों का पहला सेट और यह तय करने की आवश्यकता होती है कि किस चीज़ को नज़रअंदाज़ नहीं किया जा सकता। यह वही जानकारी-प्रकार है जिसके साथ बड़े भाषा मॉडल काम करने के लिए बनाए गए हैं: खंडित पाठ, आंशिक संदर्भ, और संभावनाओं को जल्दी क्रमबद्ध करने की ज़रूरत।

अध्ययन का परिणाम संकेत देता है कि यह उन्नत मॉडलों के लिए विशेष रूप से अनुकूल उपयोग-क्षेत्र हो सकता है। रिकॉर्ड जितना कम पूर्ण होगा, कोई सिस्टम उतना ही मूल्यवान हो सकता है यदि वह लगातार सबसे संभावित या सबसे खतरनाक व्याख्याओं की पहचान कर सके। तथ्य यह कि सबसे बड़ा अंतर पहले संपर्क-बिंदु पर था, यह संकेत देता है कि AI सहायता देखभाल की अग्रिम पंक्ति में, न कि केवल तब, जब पूर्ण रिकॉर्ड, इमेजिंग और लैब-कार्य उपलब्ध हों, सबसे उपयोगी साबित हो सकती है।

यह सावधानी की आवश्यकता को समाप्त नहीं करता। नैदानिक तैनाती फिर भी अलग-अलग अस्पतालों में सत्यापन, चिकित्सक-पर्यवेक्षण, कार्यप्रवाह एकीकरण, और जब मॉडल की सिफारिशें गलत, अधूरी या अत्यधिक आत्मविश्वासी हों, तब क्या होता है, जैसे प्रश्न उठाएगी। ये मुद्दे किसी एक अध्ययन, यहाँ तक कि एक चर्चित अध्ययन से भी हल नहीं होते।

Two drones, one yellow, one grey, almost identical otherwise.

FCC moves toward retroactive ban on suspected DJI front companies

The U.S. communications regulator is preparing to use a new enforcement tool against companies it says disguised DJI products to keep them on the American market.

Read article

आगे क्या

पेपर का तत्काल महत्व यह है कि यह अस्पतालों, नियामकों और स्वास्थ्य-प्रणाली के नेताओं को यह मानने के लिए अधिक ठोस साक्ष्य देता है कि अत्याधुनिक भाषा-मॉडलों का नैदानिक वातावरण में गंभीर मूल्यांकन किया जाना चाहिए। निकट-भविष्य का सबसे यथार्थवादी मार्ग स्वायत्त निदान नहीं, बल्कि मौजूदा देखभाल-टीमों के भीतर पर्यवेक्षित उपयोग है।

यदि आगे के अध्ययन व्यापक मरीज समूहों और संस्थानों में समान प्रदर्शन की पुष्टि करते हैं, तो अस्पताल AI ट्रायेज सहायता को एक प्रयोगात्मक नवीनता के बजाय निदान-सहायता की एक व्यावहारिक परत के रूप में देखना शुरू कर सकते हैं। इसका प्रभाव स्टाफिंग, चिकित्सा प्रशिक्षण, दायित्व-ढाँचों और इलेक्ट्रॉनिक-रिकॉर्ड सॉफ़्टवेयर डिज़ाइन पर पड़ेगा।

फ़िलहाल यह अध्ययन इसलिए अलग दिखता है क्योंकि यह चर्चा को काल्पनिक संभावना से वास्तविक आपातकालीन-कक्ष मामलों में मापी गई तुलना की ओर ले जाता है। चिकित्सा में यह एक महत्वपूर्ण सीमा है। अब प्रश्न यह नहीं है कि AI विश्वसनीय नैदानिक भाषा उत्पन्न कर सकता है या नहीं। प्रश्न यह है कि क्या स्वास्थ्य-प्रणालियाँ ऐसे उपकरणों का जिम्मेदारी से उपयोग करने के लिए तैयार हैं, जो कुछ परिस्थितियों में, अनुभवी डॉक्टरों से पहले सही निदान पहचान सकते हैं।

यह लेख TechCrunch की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on techcrunch.com

सबसे ऊँचे दाँव पर AI का प्रदर्शन सबसे मजबूत रहा

तुलना कैसे तैयार की गई

EU hits Google with €890 million DMA fine

परिणामों का अर्थ क्या है और क्या नहीं

ट्रायेज क्यों निर्णायक युद्ध-भूमि है

FCC moves toward retroactive ban on suspected DJI front companies

आगे क्या

Comments (0)

Related Articles

Dave Eggers Used an OpenAI Talk to Warn About Writing and Education

Apple Maps Ads Will Exclude Home Services

France orders ISPs to block Polymarket access

Truth Social to sell real-time API access to top accounts

OMB Grant Proposal Draws Fierce Backlash From Space Science Advocates

Keep Reading