प्रकाशनातील प्रामाणिकतेची समस्या आता मोठ्या प्रमाणावर मोजता येऊ लागली आहे
जैववैद्यकीय लेखांच्या मोठ्या पुनरावलोकनात 2023 नंतर बनावट संदर्भांमध्ये तीव्र वाढ आढळली आहे, ज्यामुळे AI-निर्मित संदर्भ चुका क्लिनिकल समज आणि काही प्रकरणांत मार्गदर्शक तत्त्वे घडविणाऱ्या साहित्यात शिरत असल्याची चिंता वाढली आहे. दिलेल्या स्रोत मजकुरानुसार, कोलंबिया विद्यापीठ आणि इतर संस्थांतील संशोधकांनी ओपन PubMed Central संग्रहातील 2.47 दशलक्ष लेखांचा अभ्यास केला, ज्यात जानेवारी 2023 ते फेब्रुवारी 2026 या काळातील प्रकाशने समाविष्ट होती. तपासलेल्या 97.1 दशलक्ष संदर्भांपैकी 4,046 संदर्भ 2,810 लेखांमध्ये बनावट म्हणून चिन्हांकित झाले.
डेटासेटचा आकार महत्त्वाचा आहे. भाषा मॉडेल्समुळे तयार झालेल्या बनावट संदर्भांबद्दलची चिंता अनेक वर्षांपासून आहे; पण दिलेले साहित्य याला आतापर्यंतचे सर्वात मोठे जैववैद्यकीय संदर्भ पुनरावलोकन म्हणून मांडते. त्यामुळे ही समस्या केवळ वैयक्तिक चुकांपुरती किंवा हौशी गैरवापरापुरती राहत नाही. ती वैज्ञानिक प्रकाशनाच्या कार्यप्रवाहांसाठीच एक आव्हान बनते.
स्रोत मजकुरातील सर्वात लक्षवेधी बाब म्हणजे कलरेषा. 2023 दरम्यान, दर प्रति 10,000 लेखांमागे सुमारे चार बनावट संदर्भांच्या आसपास राहिल्याचे सांगितले जाते. 2024 मध्यापासून तो तीव्रपणे वाढत गेला, 2025 अखेरीस प्रति 10,000 लेखांमागे 51.3 आणि 2026 च्या पहिल्या सात आठवड्यांत 56.9 पर्यंत पोहोचला. हे सुरुवातीच्या पातळीपेक्षा 12 पटांहून अधिक वाढ आहे.
कालमर्यादा AI परिकल्पनेला बळ देते, पण एकट्या पुराव्याने सिद्ध करत नाही
स्रोत मजकुरात उद्धृत केलेल्या लेखकांना ChatGPT सारख्या भाषा मॉडेल्सच्या व्यापक वापराशी स्पष्ट संभाव्य संबंध दिसतो. त्यांचा युक्तिवाद कालानुक्रमिक तसेच तांत्रिकही आहे. सर्वसाधारण उपयोगाच्या मजकूर-निर्मिती साधनांना 2022 नंतर मोठ्या प्रमाणावर स्वीकारले जाऊ लागल्याने, आणि शैक्षणिक प्रकाशनाला बहुतेक वेळा सादरीकरणापासून प्रसिद्धीपर्यंत 100 ते 200 दिवस लागतात, AI-सहाय्यित मसुद्यांचा परिणाम PubMed Central सारख्या संग्रहांत 2024 च्या मध्यावर दिसणे अपेक्षित होते. नोंदवलेली उडी तिथेच सुरू होते.
त्याच वेळी, स्रोत साहित्य नमूद करते की संशोधक इतर कारणे नाकारत नाहीत. पेपर-मिल क्रियाकलाप आणि अनुक्रमण पद्धतींतील बदल यांचा संभाव्य कारणांमध्ये उल्लेख आहे. ही सावधता महत्त्वाची आहे. डेटा AI-चालित संदर्भ बनावटपणा अधिक सामान्य होत असल्याशी सुसंगत दिसतो, पण स्रोत असा दावा करत नाही की भाषा मॉडेल्सच प्रत्येक प्रकरणाचे एकमेव स्पष्टीकरण आहेत.
तरीही तर्क पटण्याजोगा आहे. मोठी भाषा मॉडेल्स विश्वसनीय दिसणारे, योग्य स्वरूपाचे, आणि वास्तविक संशोधकांना अस्तित्वात नसलेल्या लेखांशी जोडणारे संदर्भ तयार करू शकतात. उच्च-प्रवाह शैक्षणिक वातावरणात, लेखक किंवा संपादकांनी ते काळजीपूर्वक पडताळले नाहीत तर अशा चुका पुढे जाऊ शकतात.
समस्या फक्त खोटे संदर्भ नाहीत, तर विश्वासार्ह दिसणारे खोटे संदर्भ आहेत
दिलेल्या साहित्याचा सर्वात चिंताजनक भाग म्हणजे हे बनावट संदर्भ तपासून ओळखणे किती कठीण असू शकते. स्रोत मजकुरात म्हटले आहे की ही खोटी संदर्भे अनेकदा लेखाच्या विषयाशी जुळतात, योग्य स्वरूप वापरतात, वास्तविक संशोधकांना श्रेय देतात, आणि विश्वासार्ह प्रकाशन वर्षेही समाविष्ट करतात. एका नमूद उदाहरणात, एका युरोलॉजी लेखात तपासलेल्या 30 संदर्भांपैकी 18 संदर्भ बनावट होते.
यामुळेच जैववैद्यकीय प्रकाशनात ही समस्या विशेषतः धोकादायक ठरते. उघडपणे तुटलेला संदर्भ पटकन सापडू शकतो. पण सुबकपणे मांडलेला, तरीही अस्तित्वात नसलेला संदर्भ, कोणीही तो विश्वासार्ह डेटाबेसशी पडताळला नाही तर, पीअर रिव्ह्यू पार करून प्रकाशित नोंदीत जाऊ शकतो. अभ्यासाची “fabricated” व्याख्या ही चिंता दर्शवते: PubMed, Crossref, OpenAlex, किंवा Google Scholar मध्ये न सापडणाऱ्या शीर्षकांना बनावट म्हणून चिन्हांकित केले गेले.
स्रोत साहित्य हेही ठळकपणे सांगते की हा धोका कुठे अधिक गंभीर होतो. पुनरावलोकन लेखांमध्ये बनावट संदर्भ येणे विशेषतः चिंताजनक आहे, कारण असे लेख बहुधा व्यापक वाचकांसाठी पुरावे संकलित करतात आणि क्लिनिकल मार्गदर्शक तत्त्वांवर प्रभाव टाकू शकतात. एखाद्या पुनरावलोकनाच्या पायातच बनावट साहित्य असेल, तर त्याचा परिणाम एका लेखापुरता मर्यादित राहत नाही.
सुचवलेला प्रतिसाद म्हणजे कमी नाही, तर अधिक स्वयंचलन
स्रोत मजकुरानुसार, संशोधकांनी प्रकाशनापूर्वी स्वयंचलित संदर्भ तपासणी आणि आधीच प्रकाशित लेखांचे मागील काळातील स्क्रिनिंग याची मागणी केली आहे. ही शिफारस व्यवहार्य आहे, कारण समस्या अंशतः प्रमाणाची आहे. लाखो लेखांतील प्रत्येक संदर्भ हाताने तपासणे मानवी दृष्टीने शक्य नाही, विशेषतः जेव्हा बनावट संदर्भ वैध दिसावेत अशा रीतीने तयार केले जातात.
स्रोत साहित्य नमूद करते की arXiv सारख्या प्लॅटफॉर्मनी AI-संबंधित त्रुटींसाठी प्राथमिक निर्बंध आधीच लागू केले आहेत. हे अधिक कडक मानकांकडे जाण्याचे संकेत देते, पण जैववैद्यकीय प्रकाशनाला केवळ इशारे पुरेसे नाहीत. संदर्भ पडताळणी ही plagiarism checks किंवा image screening सारखी संपादकीय पाइपलाइनमधील नियमित तांत्रिक पायरी बनावी लागेल.
यातून आणखी एक व्यापक धडा मिळतो. AI साधने मसुदा तयार करण्याचा खर्च कमी करू शकतात, पण अधिकारवाणी वाटणाऱ्या खोटेपणाचा खर्चही कमी करू शकतात. वैज्ञानिक संवादात हा तोल विशेषतः धोकादायक आहे, कारण वाचक अनेकदा संदर्भ यंत्रणा आधीच तपासलेली आहे असे गृहित धरतात. ते गृहितक कमकुवत झाले की, साहित्यावरील विश्वास कमी होतो.
AI स्वीकारण्याच्या कथेत आता प्रामाणिकतेचे आव्हानही समाविष्ट झाले आहे
नवीन ऑडिट सूचित करते की बनावट संदर्भ हे आता जैववैद्यकीय प्रकाशनातील कडेला असलेले प्रकरण राहिलेले नाहीत. ते पुरेसे वारंवार आणि पुरेशा वेगाने वाढत आहेत की प्रक्रिया बदलांची गरज भासते. मुख्य चालक भाषा-मॉडेलचा गैरवापर असो, पेपर-मिल असो, किंवा दोन्हींचे मिश्रण असो, व्यावहारिक परिणाम एकच आहे: संदर्भ फक्त व्यावसायिक दिसतात म्हणून त्यांना विश्वासार्ह समजता येत नाही.
हे कोणत्याही क्षेत्रासाठी गंभीर आहे, विशेषतः अशा क्षेत्रासाठी जिथे पुनरावलोकने आणि संकलने क्लिनिकल मार्गदर्शक तत्त्वे घडवू शकतात. स्रोत साहित्याचा धडा असा नाही की AI ला संशोधन कार्यप्रवाहातून पूर्णपणे वगळले पाहिजे. धडा असा आहे की कठोर पडताळणीशिवाय AI-सहाय्यित लेखन पुराव्यांची साखळी दूषित करू शकते. हे मोठ्या प्रमाणावर घडले, तर विश्वासार्हतेचा खर्च एका लेखापेक्षा कितीतरी पुढे पसरतो.
- 2.47 दशलक्ष जैववैद्यकीय लेखांच्या ऑडिटमध्ये 2,810 लेखांमध्ये 4,046 बनावट संदर्भ आढळले.
- 2023 नंतर 2026 च्या सुरुवातीपर्यंत बनावट संदर्भांचा दर 12 पटांहून अधिक वाढल्याचे सांगितले जाते.
- भाषा मॉडेल्सना एक संभाव्य कारण मानले जात आहे, पण ते एकमेव कारण नाही.
- क्लिनिकल समज आणि मार्गदर्शक तत्त्वांवर परिणाम करणाऱ्या पुनरावलोकन लेखांमध्ये बनावट संदर्भ विशेषतः धोकादायक आहेत.
- लेखक स्वयंचलित संदर्भ तपासणी आणि मागील काळातील स्क्रिनिंगची शिफारस करतात.
हा लेख The Decoder च्या अहवालावर आधारित आहे. मूळ लेख वाचा.
Originally published on the-decoder.com

