प्रकाशन-सम्बन्धी अखंडता की समस्या अब बड़े पैमाने पर मापी जा सकती है

जैव-चिकित्सकीय शोधपत्रों की एक बड़ी समीक्षा में 2023 के बाद से गढ़े हुए संदर्भों में तेज़ वृद्धि पाई गई है, जिससे चिंता बढ़ी है कि AI-जनित उद्धरण त्रुटियां ऐसे साहित्य में प्रवेश कर रही हैं जो नैदानिक समझ और कुछ मामलों में दिशानिर्देशों को आकार देता है। दिए गए स्रोत पाठ के अनुसार, कोलंबिया विश्वविद्यालय और अन्य संस्थानों के शोधकर्ताओं ने ओपन PubMed Central संग्रह में 2.47 मिलियन शोधपत्रों की जांच की, जिसमें जनवरी 2023 से फरवरी 2026 तक की प्रकाशन अवधि शामिल थी। जांचे गए 97.1 मिलियन संदर्भों में से 4,046 को 2,810 शोधपत्रों में गढ़ा हुआ पाया गया।

डेटासेट का पैमाना मायने रखता है। भाषा मॉडलों द्वारा मनगढ़ंत उद्धरणों को लेकर चिंताएं वर्षों से रही हैं, लेकिन प्रस्तुत सामग्री इसे अब तक की जैव-चिकित्सकीय संदर्भों की सबसे बड़ी समीक्षा के रूप में प्रस्तुत करती है। इससे एक किस्सानुमा समस्या एक अधिक प्रणालीगत चेतावनी में बदल जाती है। यदि हजारों शोधपत्रों में गढ़े हुए संदर्भ दिखाई दे रहे हैं, तो यह मुद्दा अब केवल अलग-थलग गलतियों या शौकिया दुरुपयोग तक सीमित नहीं है। यह वैज्ञानिक प्रकाशन कार्यप्रवाह के लिए ही एक चुनौती बन जाता है।

स्रोत पाठ में सबसे उल्लेखनीय बात प्रवृत्ति की रेखा है। 2023 के दौरान, दर कथित तौर पर प्रति 10,000 शोधपत्रों में लगभग चार गढ़े हुए संदर्भों पर बनी रही। मध्य 2024 से यह तेजी से बढ़ी, 2025 के अंत तक प्रति 10,000 शोधपत्रों में 51.3 तक पहुंच गई और 2026 के पहले सात हफ्तों में 56.9 तक। यह शुरुआती आधार की तुलना में 12 गुना से अधिक की वृद्धि है।

समय-निर्धारण AI परिकल्पना को मजबूत करता है, लेकिन विशिष्टता साबित नहीं करता

स्रोत पाठ में उद्धृत लेखकों को ChatGPT जैसे भाषा मॉडलों के व्यापक उपयोग से एक स्पष्ट संभावित संबंध दिखता है। उनका तर्क कालक्रम के साथ-साथ तकनीकी भी है। चूंकि सामान्य-उद्देश्य पाठ जनरेटर देर 2022 के बाद व्यापक रूप से अपनाए गए, और अकादमिक प्रकाशन अक्सर सबमिशन से प्रकाशन तक 100 से 200 दिन लेता है, इसलिए AI-सहायता प्राप्त ड्राफ्टिंग का प्रभाव PubMed Central जैसे संग्रहों में मध्य 2024 के आसपास दिखाई देना अपेक्षित था। रिपोर्ट की गई छलांग ठीक वहीं शुरू होती है।

साथ ही, स्रोत सामग्री नोट करती है कि शोधकर्ता अन्य कारणों को खारिज नहीं करते। पेपर-मिल गतिविधि और अनुक्रमण प्रथाओं में परिवर्तन दोनों को संभावित योगदान कारकों के रूप में उल्लेख किया गया है। यह सावधानी महत्वपूर्ण है। डेटा AI-चालित उद्धरण निर्माण के अधिक सामान्य होने के अनुरूप लगता है, लेकिन स्रोत यह दावा नहीं करता कि भाषा मॉडल ही हर मामले का एकमात्र प्रमाण हैं।

फिर भी तर्क प्रभावशाली है। बड़े भाषा मॉडल ऐसे संदर्भ उत्पन्न करने के लिए जाने जाते हैं जो विश्वसनीय लगते हैं, सही प्रारूप का पालन करते हैं, और वास्तविक शोधकर्ताओं को भी काल्पनिक शोधपत्रों से जोड़ सकते हैं। उच्च-गति वाले अकादमिक वातावरण में, यदि लेखक या संपादक उन्हें सावधानी से सत्यापित न करें, तो ये त्रुटियां बच निकलती हैं।

समस्या सिर्फ नकली संदर्भ नहीं, बल्कि विश्वसनीय दिखने वाले नकली संदर्भ हैं

दिए गए सामग्री का सबसे चिंताजनक पहलू यह है कि इन गढ़े हुए उद्धरणों का निरीक्षण करके पता लगाना कितना कठिन हो सकता है। स्रोत पाठ कहता है कि ये झूठे संदर्भ अक्सर शोधपत्र के विषय से मेल खाते हैं, उचित स्वरूपण का उपयोग करते हैं, वास्तविक शोधकर्ताओं को श्रेय देते हैं, और विश्वसनीय प्रकाशन वर्ष शामिल करते हैं। एक उद्धृत उदाहरण में, एक यूरोलॉजी पेपर में जांचे गए 30 संदर्भों में से 18 गढ़े हुए थे।

यही कारण है कि जैव-चिकित्सकीय प्रकाशन में यह मुद्दा विशेष रूप से खतरनाक है। स्पष्ट रूप से टूटा हुआ संदर्भ जल्दी पकड़ा जा सकता है। लेकिन एक सुघड़, परंतु अस्तित्वहीन संदर्भ सहकर्मी समीक्षा से होकर प्रकाशित रिकॉर्ड में जा सकता है यदि कोई उसे विश्वसनीय डेटाबेस से सत्यापित न करे। अध्ययन की

Originally published on the-decoder.com