பதிப்புச் சுத்தம் என்ற பிரச்சினை இப்போது பெரிய அளவில் அளவிடக்கூடியதாகியுள்ளது

உயிரியல் மருத்துவக் கட்டுரைகளின் பெரிய ஆய்வொன்றில் 2023 முதல் போலியான மேற்கோள்கள் வேகமாக அதிகரித்துள்ளன; இதனால் மருத்துவப் புரிதலைவும் சில நேரங்களில் வழிகாட்டுதல்களையும் வடிவமைக்க உதவும் இலக்கியத்தில் AI உருவாக்கிய மேற்கோள் பிழைகள் புகுந்துவிடுகின்றன என்ற கவலை எழுந்துள்ளது. வழங்கப்பட்ட மூல உரையின் படி, கொலம்பியா பல்கலைக்கழகம் மற்றும் பிற நிறுவனங்களின் ஆராய்ச்சியாளர்கள் 2.47 மில்லியன் கட்டுரைகளை திறந்த PubMed Central காப்பகத்தில் ஆய்வு செய்தனர்; இது 2023 ஜனவரி முதல் 2026 பிப்ரவரி வரை வெளியிடப்பட்டவற்றை உள்ளடக்கியது. பரிசோதிக்கப்பட்ட 97.1 மில்லியன் மேற்கோள்களில், 4,046 மேற்கோள்கள் 2,810 கட்டுரைகளில் போலியானவை எனக் குறிக்கப்பட்டன.

தரவுத்தொகையின் அளவு முக்கியமானது. மொழி மாதிரிகள் உருவாக்கிய கற்பனைக் குறிப்புகள் பற்றிய கவலைகள் பல ஆண்டுகளாகச் சுற்றி வந்துள்ளன; ஆனால் வழங்கப்பட்ட பொருள் இதை இதுவரை நடந்த உயிரியல் மருத்துவ மேற்கோள்களின் மிகப்பெரிய ஆய்வாகக் காட்டுகிறது. இது ஒரு கதையாடல் நிலைமையிலிருந்த பிரச்சினையை, அமைப்புசார்ந்த எச்சரிக்கைக்கு அருகான ஒன்றாக மாற்றுகிறது. ஆயிரக்கணக்கான கட்டுரைகளில் போலியான மேற்கோள்கள் தோன்றினால், அது தனித்த தவறுகள் அல்லது அமெச்சூர் தவறான பயன்பாடு மட்டும் அல்ல. அறிவியல் பதிப்புத் தொழில்நடவடிக்கைகளுக்கே ஒரு சவாலாக மாறுகிறது.

மூல உரையில் மிகவும் கவனம் ஈர்க்கும் அம்சம் அதன் போக்கு வரிசை. 2023 முழுவதும், அந்த விகிதம் 10,000 கட்டுரைகளுக்கு சுமார் நான்கு போலியான மேற்கோள்கள் என்ற நிலையில் இருந்ததாக தெரிவிக்கப்படுகிறது. 2024 நடுப்பகுதியில் இருந்து அது திடீரென உயர்ந்து, 2025 இறுதியில் 10,000 கட்டுரைகளுக்கு 51.3 ஆகவும், 2026-இன் முதல் ஏழு வாரங்களில் 56.9 ஆகவும் உயர்ந்தது. இது ஆரம்ப அடிப்படையை ஒப்பிட்டால் 12 மடங்குக்கு மேல் உயர்வு.

காலக்கட்டம் AI கருதுகோளை வலுப்படுத்துகிறது, ஆனால் தனித்தனியாக நிரூபிக்கவில்லை

மூல உரையில் மேற்கோளிடப்பட்ட ஆசிரியர்களுக்கு ChatGPT போன்ற மொழி மாதிரிகளின் பரவலான பயன்பாடு ஒரு தெளிவான தொடர்பாகத் தெரிகிறது. அவர்களின் காரணம் காலவரிசையையும் தொழில்நுட்பத்தையும் சார்ந்தது. பொதுப் பயன்பாட்டு உரை உருவாக்கிகள் 2022 இறுதிக்குப் பிறகு பரவலாகப் பயன்படுத்தப்படத் தொடங்கியதாலும், கல்வி வெளியீடு பெரும்பாலும் சமர்ப்பிப்பிலிருந்து வெளிவர 100 முதல் 200 நாட்கள் எடுப்பதாலும், AI உதவியுடன் எழுதப்பட்ட வரைபடங்களின் தாக்கம் PubMed Central போன்ற காப்பகங்களில் 2024 நடுப்பகுதியில் தெரியத் தொடங்கும் என்று எதிர்பார்க்கப்பட்டது. தெரிவிக்கப்பட்ட திடீர் உயர்வு துல்லியமாக அங்கேயே தொடங்குகிறது.

அதே சமயம், மூலப் பொருள் மற்ற காரணங்களையும் ஆராய்ச்சியாளர்கள் 排除 செய்யவில்லை என்பதைச் சொல்கிறது. பேப்பர்-மில் செயல்பாடுகள் மற்றும் குறியீட்டு நடைமுறைகளில் ஏற்பட்ட மாற்றங்கள் ஆகியவை கூட சாத்தியமான பங்களிப்பு காரணங்களாக குறிப்பிடப்படுகின்றன. இந்த முன்னெச்சரிக்கை முக்கியமானது. AI இயக்கும் மேற்கோள் உருவாக்கமே அதிகரித்து வருவதை தரவு சுட்டுகிறது, ஆனால் மொழி மாதிரிகள் மட்டுமே ஒவ்வொரு நிகழ்வுக்கும் காரணம் என மூலப் பொருள் கூறவில்லை.

எனினும், தர்க்கம் வலுவானது. பெரிய மொழி மாதிரிகள் நம்பத்தகுந்ததாகத் தோன்றும், சரியான வடிவமைப்பைப் பின்பற்றும், உண்மையான ஆராய்ச்சியாளர்களை இல்லாத கட்டுரைகளுடன் இணைக்கும் மேற்கோள்களை உருவாக்க முடியும் என்பது அறிந்ததே. அதிக அளவிலான கல்விச் சூழலில், ஆசிரியர்கள் அல்லது தொகுப்பாளர்கள் அவற்றை கவனமாக சரிபார்க்காவிட்டால், அந்தப் பிழைகள் தப்பித்து விடலாம்.

பிரச்சினை வெறும் போலி மேற்கோள்கள் அல்ல, நம்பத்தகுந்த போலி மேற்கோள்களும் தான்

வழங்கப்பட்ட பொருளில் மிகவும் அச்சத்தை ஏற்படுத்தும் விவரம், இந்த போலி மேற்கோள்களை பார்வையாலே கண்டறிவது எவ்வளவு கடினமாக இருக்க முடியும் என்பதே. மூல உரையின் படி, இந்த போலி மேற்கோள்கள் பெரும்பாலும் கட்டுரையின் பொருளோடு பொருந்துகின்றன, சரியான வடிவமைப்பைப் பயன்படுத்துகின்றன, உண்மையான ஆராய்ச்சியாளர்களுக்குப் பெயர் கொடுக்கின்றன, மேலும் நம்பத்தகுந்த வெளியீட்டு ஆண்டுகளையும் உள்ளடக்குகின்றன. குறிப்பிடப்பட்ட ஒரு எடுத்துக்காட்டில், ஒரு யூராலஜி கட்டுரையில் சரிபார்க்கப்பட்ட 30 மேற்கோள்களில் 18 போலியானவையாக இருந்தன.

அதுவே உயிரியல் மருத்துவப் பதிப்புகளில் இந்த பிரச்சினையை குறிப்பாக ஆபத்தானதாக மாற்றுகிறது. வெளிப்படையாக உடைந்த மேற்கோளை விரைவில் கண்டுபிடிக்கலாம். ஆனால் அழகாக வடிவமைக்கப்பட்ட, இருப்பினும் இல்லாத மேற்கோள், யாரும் அதை நம்பகமான தரவுத்தளங்களுடன் சரிபார்க்காவிட்டால், சக ஆய்வைத் தாண்டி வெளியிடப்பட்ட பதிவுக்குள் சென்று விடலாம். ஆய்வின் “fabricated” என்ற வரையறை இந்தக் கவலையை பிரதிபலிக்கிறது: PubMed, Crossref, OpenAlex, அல்லது Google Scholar-இல் காண முடியாத தலைப்புகள் குறிக்கப்பட்டன.

மூலப் பொருள் மேலும், இந்த ஆபத்து அதிக முக்கியத்துவம் பெறுவது எங்கே என்பதை வலியுறுத்துகிறது. விமர்சனக் கட்டுரைகளில் போலி மேற்கோள்கள் தோன்றுவது மிகவும் கவலைக்குரியது, ஏனெனில் அவை பெரும்பாலும் பரந்த வாசகர்களுக்கான ஆதாரங்களைச் சுருக்குகின்றன, மேலும் மருத்துவ வழிகாட்டுதல்களையும் பாதிக்கக்கூடும். ஒரு விமர்சனத்தின் அடித்தளத்தில் போலி இலக்கியம் இருந்தால், அதன் விளைவுகள் ஒரு கட்டுரையைத் தாண்டி பரவலாம்.

பரிந்துரைக்கப்படும் பதில் குறைவான கண்காணிப்பு அல்ல, அதிக தானியக்க சரிபார்ப்பு

மூல உரையின் படி, ஆராய்ச்சியாளர்கள் வெளியீட்டிற்கு முன் தானியங்கி மேற்கோள் சரிபார்ப்பையும், ஏற்கனவே வெளியிடப்பட்ட கட்டுரைகளின் பின்னோக்கித் திரையிடலையும் கோருகின்றனர். இந்த பரிந்துரை நடைமுறைசார், ஏனெனில் பிரச்சினையே ஓரளவு அளவின் பிரச்சினை. மனித மதிப்பாய்வாளர்கள் மில்லியன் கணக்கான கட்டுரைகளில் ஒவ்வொரு மேற்கோளையும் கைமுறையாகச் சரிபார்ப்பது யதார்த்தமல்ல, குறிப்பாக போலி மேற்கோள்கள் நம்பத்தகுந்தவையாகத் தோன்றும்படி வடிவமைக்கப்பட்டால்.

மூலப் பொருள் arXiv போன்ற தளங்கள் AI தொடர்பான பிழைகளுக்காக ஆரம்ப தண்டனைகளை ஏற்கனவே அறிமுகப்படுத்தியுள்ளன என்று குறிப்பிடுகிறது. இது கடுமையான விதிகளுக்கான நகர்வை காட்டுகிறது, ஆனால் உயிரியல் மருத்துவ வெளியீட்டுக்கு வெறும் எச்சரிக்கைகள் போதாது. மேற்கோள் சரிபார்ப்பு, திருட்டு-சோதனை அல்லது படப்பரிசோதனை போன்ற editorial pipeline-இல் வழக்கமான தொழில்நுட்ப படியாக மாற வேண்டியிருக்கலாம்.

இதில் ஒரு பரந்த பாடமும் உள்ளது. AI கருவிகள் உரை எழுதும் செலவைக் குறைக்கலாம், ஆனால் அதிகாரப்பூர்வமாகத் தோன்றும் பொய்யை உருவாக்கும் செலவையும் குறைக்கலாம். அறிவியல் தொடர்பாடலில், வாசகர்கள் மேற்கோள் அமைப்பு ஏற்கனவே சரிபார்க்கப்பட்டிருக்கும் என்று கருதுவதால், இந்த பரிமாற்றம் குறிப்பாக ஆபத்தானது. அந்த கருதுகோள் பலவீனமடைந்தால், இலக்கியத்தின் மீதான நம்பிக்கை சிதையும்.

AI ஏற்றுக்கொள்ளும் கதையின் ஒரு பகுதியாக இப்போது நேர்மைச் சவாலும் உள்ளது

புதிய ஆய்வு, போலியான மேற்கோள்கள் உயிரியல் மருத்துவ வெளியீட்டில் இனி ஓரங்கட்டப்பட்ட விஷயம் அல்ல என்பதைச் சுட்டுகிறது. அவை போதிய அளவுக்கு அடிக்கடி, மேலும் போதிய வேகத்தில் அதிகரித்து வருவதால், செயல்முறை மாற்றங்கள் தேவைப்படுகிறது. முக்கிய இயக்கி மொழி-மாதிரி தவறான பயன்பாடாக இருந்தாலும், பேப்பர்-மில் செயல்பாடாக இருந்தாலும், அல்லது இவற்றின் சேர்க்கையாக இருந்தாலும், நடைமுறை விளைவு ஒன்றே: மேற்கோள்களை அவை தொழில்முறையாகத் தோன்றுவதால் மட்டும் நம்பகமானவை என்று கருத முடியாது.

இது எந்தத் துறைக்கும் ஒரு கடுமையான பிரச்சினை, குறிப்பாக விமர்சனங்களும் தொகுப்புகளும் மருத்துவ வழிகாட்டுதல்களை வடிவமைக்க உதவக்கூடிய துறைக்கு. மூலப் பொருளின் பாடம் என்னவென்றால், AI-யை ஆராய்ச்சி பணிநடவடிக்கைகளிலிருந்து முற்றிலும் விலக்க வேண்டும் என்பதல்ல. கடுமையான சரிபார்ப்பு இல்லாமல் AI உதவியுடன் எழுதுவது ஆதாரச் சங்கிலியை மாசுபடுத்தக்கூடும் என்பதுதான். அது அளவில் நிகழ்ந்துவிட்டால், நம்பகத்தன்மைச் செலவு ஒரு கட்டுரையை விட அதிகமாகப் பரவும்.

  • 2.47 மில்லியன் உயிரியல் மருத்துவக் கட்டுரைகளின் ஆய்வில் 2,810 கட்டுரைகளில் 4,046 போலியான மேற்கோள்கள் கண்டறியப்பட்டன.
  • 2023 முதல் 2026 தொடக்கம் வரை போலி மேற்கோள்களின் விகிதம் 12 மடங்குக்கு மேல் உயர்ந்ததாக தெரிவிக்கப்படுகிறது.
  • மொழி மாதிரிகள் ஒரு சாத்தியமான இயக்கியாகக் கருதப்படுகின்றன, ஆனால் ஒரே காரணம் அல்ல.
  • மருத்துவப் புரிதல் மற்றும் வழிகாட்டுதல்களை பாதிக்கக்கூடிய விமர்சனக் கட்டுரைகளில் போலி மேற்கோள்கள் குறிப்பாக ஆபத்தானவை.
  • ஆய்வின் ஆசிரியர்கள் தானியங்கி மேற்கோள் சரிபார்ப்பையும் பின்னோக்கித் திரையிடலையும் பரிந்துரைக்கின்றனர்.

இந்தக் கட்டுரை The Decoder-இன் அறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com