சரியான பதில் மட்டும் போதாது
செயற்கை நுண்ணறிவில் வளர்ந்து வரும் ஆய்வு, ஒரு மாதிரி கேள்விக்கு பதிலளிக்க முடியுமா என்ற கேள்வியிலிருந்து, அந்தப் பதில் எங்கிருந்து வந்தது என்பதை நிரூபிக்க முடியுமா என்பதற்குத் தாவுகிறது. The Decoder வெளிப்படுத்திய புதிய ஆய்வு, பல முன்னணி அமைப்புகள் இன்னும் அந்த இரண்டாவது பகுதியில் சிரமப்படுகின்றன என்பதைக் காட்டுகிறது.
பீக்கிங் பல்கலைக்கழகம் மற்றும் ஷாங்காய் செயற்கை நுண்ணறிவு ஆய்வகத்தைச் சேர்ந்த ஆராய்ச்சியாளர்கள், ஆவணக் கேள்வி-பதில் முறையில் பதில் துல்லியமும் மூல-ஒதுக்கீடும் இரண்டையும் அளவிட CiteVQA என்ற பெஞ்ச்மார்க்கை உருவாக்கினர். உயர் ஆபத்து சூழல்களில் AI-யை நம்ப விரும்புவோருக்கு அவர்களின் முடிவு அசௌகரியமானது: ஒரு மாதிரி சரியான பதிலை அளித்தாலும், தவறான ஆதாரத்தைக் காட்டக்கூடும்.
அந்த தோல்வி வகையை குழு “attribution hallucination” என்று அழைக்கிறது. நடைமுறையில், AI அமைப்பு தனது இறுதி பதில் துல்லியமாக இருப்பதால் நம்பத்தகுந்ததாகத் தோன்றலாம், ஆனால் ஆதரவாக வழங்கப்படும் மேற்கோள் உண்மையில் அந்தப் பதிலை நியாயப்படுத்தாது.
மேற்கோள் தரம் ஏன் முக்கியம்
DocVQA மற்றும் MMLongBench-Doc போன்ற சாதாரண ஆவண-பகுப்பாய்வு பெஞ்ச்மார்க்குகள் பொதுவாக இறுதி பதிலையே மதிப்பிடுகின்றன. இதனால் பெரிய ஒரு blind spot உருவாகிறது. ஒரு மாதிரி மூலப் பொருளிலிருந்து காரணமிட்டிருக்கலாம்; ஆனால் முன் அறிந்த அறிவு, pattern matching அல்லது prompt-இன் பகுதி குறிப்புகளின் அடிப்படையில் ஊகித்திருக்கவும் முடியும்.
பல consumer பயன்பாடுகளில் அந்த வேறுபாடு கவனிக்கப்படாமல் போகலாம். சட்டம், மருத்துவம், நிதி, audit போன்ற துறைகளில் அது முடியாது. AI output பயன்படுத்தத்தக்கதாக மாற்றும் முதன்மை அம்சமே traceability என ஆய்வுக் கட்டுரை வாதிடுகிறது. ஒரு அமைப்பு தனது பதிலுக்கான ஆதாரமாக இருக்கும் பத்தி, அட்டவணை அல்லது படத்தை நம்பகமாக அடையாளம் காண முடியாவிட்டால், அழகாகக் காணப்படும் பதிலும் செயல்பாட்டளவில் பாதுகாப்பற்றதாக இருக்கலாம்.
CiteVQA அந்த இடைவெளியை நேரடியாக வெளிப்படுத்த வடிவமைக்கப்பட்டுள்ளது. ஒரு page number போதாது. மாதிரிகள் ஆவணத்தின் உள்ளே உள்ள துல்லியமான மூல இடத்தைக் குறிப்பிட வேண்டும்; குறிப்பிட்ட ஆதார உருப்படியின் அளவிற்கு வரை செல்ல வேண்டும்.
சாதாரண document QA-வைவிட கடினமான சோதனை
இந்த பெஞ்ச்மார்க்கில் ஏழு தலைப்புப் பகுதிகளைச் சேர்ந்த 711 PDF-களில் 1,897 கேள்விகள் உள்ளன; இதில் 451 ஆவணங்கள் ஆங்கிலத்தில், 260 சீன மொழியில் உள்ளன. சராசரி ஆவண நீளம் 40.6 பக்கங்கள்; எனவே இது பல தற்போதைய ஆவண பெஞ்ச்மார்க்குகளைவிட குறிப்பிடத்தக்க அளவு நீளமானது.
முழுக்க கைமுறை லேபிளிங்கை சாராமல், ஆராய்ச்சியாளர்கள் ஒரு தானியங்கி pipeline-ஐ உருவாக்கினர். ஆவணங்கள் தனித்தனி கூறுகளாகப் பிரிக்கப்படுகின்றன; பின்னர் மாதிரிகள் ஆதாரச் சங்கிலிகளைத் தொடர்கின்றன. ஒவ்வொரு மேற்கோளிடப்பட்ட கூறும் உண்மையில் அவசியமானதா என்பதை, ஆவணங்களை ஒன்றொன்றாக நீக்கி, மாதிரி இன்னும் பதில் சொல்ல முடியுமா என்று பரிசோதித்து, அமைப்பு சோதிக்கிறது. முடியாவிட்டால், அந்த ஆதாரம் அத்தியாவசியமாகக் கருதப்படுகிறது.
முக்கிய அளவுகோல் Strict Attributed Accuracy. அந்த மதிப்பீட்டில், ஒரு மாதிரிக்கு இரு பகுதிகளும் வெற்றியடைந்தால் மட்டுமே மதிப்பெண் கிடைக்கும்: பதில் சரியாக இருக்க வேண்டும், மேலும் மேற்கோள் சரியான ஆதாரப் பொருளைத் தொட வேண்டும். சரியான பதிலுடன் தவறான மேற்கோள் இருந்தால் பூஜ்யம்.
முன்னணி மாதிரிகளும் இன்னும் பின்னே
இருபது தற்போதைய மாதிரிகள் மதிப்பிடப்பட்டன. சிறந்த செயல்திறன் காட்டிய அமைப்பு, Gemini-3.1-Pro-Preview, கடுமையான அளவுகோலில் 100-இல் 76 பெற்றது. இது வலுவான செயல்திறன், ஆனால் கிடைக்கக்கூடிய சிறந்த முடிவுக்கும் நம்பகமான near-perfect attribution-க்கும் இடையில் இன்னும் பெரிய இடைவெளி உள்ளது.
பெஞ்ச்மார்க் பதிலின் தரத்துக்கும் ஆதாரத் தரத்துக்கும் இடையிலான முக்கிய வேறுபாட்டையும் வெளிப்படுத்தியது. GPT-5.4 raw answer performance-ல் 87.1 பெற்றதாக கூறப்படுகிறது, ஆனால் சரியான citation தேவைப்படும்போது அது 59 ஆகக் குறைந்தது. வேறு வார்த்தைகளில், மாதிரி என்ன சொல்ல வேண்டும் என்பதை அடிக்கடி அறிந்திருந்தது; ஆனால் ஆவணத்தில் பதில் எங்கு இருந்து வந்தது என்பதை அது தொடர்ந்து காட்டவில்லை.
open-source அமைப்புகள் அறிக்கையிடப்பட்ட முடிவுகளில் மிகவும் மோசமாக இருந்தன. ஒப்பீட்டில் மிக வலுவான இலவச மாதிரியாக விவரிக்கப்பட்ட Qwen3-VL-235B-A22B 22.5 பெற்றது. சிறிய open மாதிரிகள் பெரும்பாலும் 10-க்கும் கீழே இருந்தன. ஆராய்ச்சியாளர்கள் அந்த செயல்திறன் நிலையை ஒழுங்குமுறை கொண்ட துறைகளுக்கு மிக ஆபத்தானது என்று வரையறுக்கிறார்கள்.
சரியான பக்கத்தைக் கண்டுபிடிப்பதே இன்னும் பெரிய சவால்
பெஞ்ச்மார்க்கின் மிகத் தெளிவான செய்திகளில் ஒன்று, நுணுக்கமான citation task தொடங்குவதற்கு முன்பே பல மாதிரிகள் சிரமப்படுகின்றன என்பதுதான். அவை பெரும்பாலும் சரியான பக்கத்தைக் கண்டுபிடிக்கத் தவறுகின்றன; அதனால் துல்லியமான paragraph- அல்லது figure-level attribution இன்னும் கடினமாகிறது.
ஏனென்றால் பயனர்கள் citation-ஐ உட்பொதிந்த பாதுகாப்பு அம்சமாக கருதுகிறார்கள். உண்மையில், citation வடிவம் ஒரு பலவீனமான retrieval படியை மறைக்கலாம். ஒரு அமைப்பு பதிலுடன் சாட்சியமெனத் தோன்றும் குறிப்புகளைச் சேர்த்தால், ஆதாரம் தவறாக இருந்தாலும் கூட, அது குறிப்பில்லா அமைப்பைவிட அதிக நம்பகமாகத் தோன்றலாம்.
மூலத்துடன் இணைந்த output-ஐ இயல்பாகவே நம்பத்தகுந்தது என்று கருதுவதில் தொழில் மேலும் கவனமாக இருக்க வேண்டும் என்பதை CiteVQA சுட்டிக்காட்டுகிறது. Attribution-ஐ அளவிட வேண்டும்; ஊகிக்கக் கூடாது.
நடைமுறை நம்பகத்தன்மைக்கான பெஞ்ச்மார்க்
இந்த ஆய்வின் முக்கியத்துவம் ஒரு மாதிரியை வெற்றியாளராக அறிவிப்பதில் குறைவாகவும், இலக்கை மறுவடிவமைப்பதில் அதிகமாகவும் உள்ளது. AI-ஐ தொழில்முறை வாசிப்பு, compliance review, due diligence அல்லது சான்று-அடிப்படையிலான உதவிக்கு பயன்படுத்த வேண்டுமெனில், அளவுகோல் fluent summaries மற்றும் பெரும்பாலும் சரியான பதில்களிலேயே நின்றுவிடக்கூடாது.
முக்கியமானது, ஒரு மாதிரி பயன்படுத்துவதாகக் கூறும் துல்லியமான ஆதாரத்தை மீட்டெடுக்க முடியுமா என்பதுதான். இந்த பெஞ்ச்மார்க் அதை வெளிப்படையாகவும் அளவிடக்கூடியதாகவும் மாற்றுகிறது. இது தற்போதைய அமைப்புகள், மேல் நிலையில் உள்ளவற்றையும் சேர்த்து, இந்தப் பகுதியில் ஒரே மாதிரியான செயல்திறன் காட்டவில்லை என்பதையும் காட்டுகிறது.
இதனால் document AI பயனற்றது என்று அர்த்தமில்லை. ஆனால் deployment முடிவுகள் “நன்றாகப் பதிலளிப்பது” மற்றும் “நன்றாக ground செய்யப்பட்டிருப்பது” என்பதை வேறுபடுத்த வேண்டும் என்பதே அர்த்தம். CiteVQA அவற்றை தனித் திறன்களாக வரையறுக்கிறது, மேலும் முடிவுகள் இரண்டாவது திறன் இன்னும் பின்னோக்கி இருப்பதைச் சுட்டுகின்றன.
enterprise வாங்குபவர்கள், ஒழுங்குமுறையாளர் குழுக்கள், மற்றும் research workflows-இல் AI-யை இணைக்கும் அணிகளுக்கான முக்கிய takeaway அதுதான். document intelligence-இல் அடுத்த போட்டி எல்லை, மேலும் நம்பிக்கையுடன் எழுதப்பட்ட உரை உருவாக்குவது இருக்காமல் போகலாம். சரியான மூலத்தின் சரியான வரிக்கு அந்த உரை துல்லியமாக இணைக்கப்பட்டிருக்கிறது என்பதை நிரூபிப்பதே ஆகலாம்.
இந்தக் கட்டுரை The Decoder-இன் செய்தியை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.
Originally published on the-decoder.com




