सबसे ऊँचे दाँव पर AI का प्रदर्शन सबसे मजबूत रहा

इस सप्ताह

Science

में प्रकाशित हार्वर्ड-नेतृत्व वाला एक अध्ययन चिकित्सा में कृत्रिम बुद्धिमत्ता के संभावित उपयोग को लेकर बहस में एक महत्वपूर्ण नया डेटा-पॉइंट जोड़ता है। पेपर के सबसे ध्यान से देखे गए प्रयोगों में से एक में, शोधकर्ताओं ने Beth Israel Deaconess Medical Center में वास्तविक आपातकालीन-कक्ष मामलों के आधार पर OpenAI मॉडलों के निदानों की तुलना दो आंतरिक चिकित्सा अटेंडिंग चिकित्सकों के निदानों से की। अध्ययन के अनुसार, OpenAI का o1 मॉडल प्रत्येक निदान चरण पर मानव चिकित्सकों के बराबर या उनसे बेहतर रहा, और सबसे स्पष्ट बढ़त प्रारंभिक ER ट्रायेज में दिखाई दी।

यह इसलिए महत्वपूर्ण है क्योंकि ट्रायेज वह चरण है जहाँ चिकित्सकों के पास सबसे कम जानकारी और सबसे कम समय होता है। अध्ययन में कहा गया कि अंतर विशेष रूप से उस शुरुआती बिंदु पर स्पष्ट थे, जब चिकित्सक और अस्पताल मरीज की स्थिति के सबसे संभावित कारण की पहचान करने की कोशिश कर रहे होते हैं, इससे पहले कि व्यापक जाँचें उपलब्ध हों। उस शुरुआती परिदृश्य में, शोधकर्ताओं ने बताया कि o1 ने 67% मामलों में बिल्कुल सही या बहुत करीब निदान दिया, जबकि एक अटेंडिंग चिकित्सक के लिए यह 55% और दूसरे के लिए 50% था।

तुलना कैसे तैयार की गई

शोध दल का नेतृत्व हार्वर्ड मेडिकल स्कूल और Beth Israel Deaconess के चिकित्सकों तथा कंप्यूटर वैज्ञानिकों ने किया। स्रोत सामग्री में उजागर आपातकालीन-कक्ष प्रयोग में टीम ने Beth Israel ER में आए 76 मरीजों पर ध्यान केंद्रित किया। OpenAI के दो मॉडलों, o1 और 4o, द्वारा उत्पन्न निदानों की तुलना दो आंतरिक चिकित्सा अटेंडिंग चिकित्सकों द्वारा दिए गए निदानों से की गई।

इसके बाद इन आउटपुट्स की समीक्षा दो अन्य अटेंडिंग चिकित्सकों ने की, जिन्हें यह नहीं बताया गया था कि कौन-सा निदान मनुष्यों का है और कौन-सा AI सिस्टम का। यह ब्लाइंडिंग महत्वपूर्ण है क्योंकि यह इस जोखिम को कम करती है कि समीक्षक गुणवत्ता के बजाय अपेक्षा के आधार पर किसी एक स्रोत को प्राथमिकता दें।

शोधकर्ताओं ने यह भी ज़ोर दिया कि उन्होंने मॉडलों को डेटा देने से पहले मरीजों के डेटा को पूर्व-संसाधित नहीं किया। इसके बजाय, AI सिस्टम्स को वही जानकारी मिली जो उस समय इलेक्ट्रॉनिक मेडिकल रिकॉर्ड में उपलब्ध थी जब प्रत्येक निदान किया गया। यह बात AI चिकित्सा अनुसंधान की एक बार-बार होने वाली आलोचना को सीधे संबोधित करती है: कि मॉडल तभी प्रभावशाली दिख सकते हैं जब उन्हें साफ़-सुथरा, सरल या असामान्य रूप से पूर्ण इनपुट दिया जाए। यहाँ शोध दल का दावा है कि मॉडलों का परीक्षण उसी अधूरी, खुरदरी नैदानिक तस्वीर पर किया गया जो वास्तविक अभ्यास में उपलब्ध होती है।