AI மாதிரிகள் பெரும்பாலும் சரியான பதில்களை அளித்தாலும் தவறான மூலத்தை மேற்கோள் காட்டுகின்றன

சரியான பதில் மட்டும் போதாது

செயற்கை நுண்ணறிவில் வளர்ந்து வரும் ஆய்வு, ஒரு மாதிரி கேள்விக்கு பதிலளிக்க முடியுமா என்ற கேள்வியிலிருந்து, அந்தப் பதில் எங்கிருந்து வந்தது என்பதை நிரூபிக்க முடியுமா என்பதற்குத் தாவுகிறது. The Decoder வெளிப்படுத்திய புதிய ஆய்வு, பல முன்னணி அமைப்புகள் இன்னும் அந்த இரண்டாவது பகுதியில் சிரமப்படுகின்றன என்பதைக் காட்டுகிறது.

பீக்கிங் பல்கலைக்கழகம் மற்றும் ஷாங்காய் செயற்கை நுண்ணறிவு ஆய்வகத்தைச் சேர்ந்த ஆராய்ச்சியாளர்கள், ஆவணக் கேள்வி-பதில் முறையில் பதில் துல்லியமும் மூல-ஒதுக்கீடும் இரண்டையும் அளவிட CiteVQA என்ற பெஞ்ச்மார்க்கை உருவாக்கினர். உயர் ஆபத்து சூழல்களில் AI-யை நம்ப விரும்புவோருக்கு அவர்களின் முடிவு அசௌகரியமானது: ஒரு மாதிரி சரியான பதிலை அளித்தாலும், தவறான ஆதாரத்தைக் காட்டக்கூடும்.

அந்த தோல்வி வகையை குழு “attribution hallucination” என்று அழைக்கிறது. நடைமுறையில், AI அமைப்பு தனது இறுதி பதில் துல்லியமாக இருப்பதால் நம்பத்தகுந்ததாகத் தோன்றலாம், ஆனால் ஆதரவாக வழங்கப்படும் மேற்கோள் உண்மையில் அந்தப் பதிலை நியாயப்படுத்தாது.

மேற்கோள் தரம் ஏன் முக்கியம்

DocVQA மற்றும் MMLongBench-Doc போன்ற சாதாரண ஆவண-பகுப்பாய்வு பெஞ்ச்மார்க்குகள் பொதுவாக இறுதி பதிலையே மதிப்பிடுகின்றன. இதனால் பெரிய ஒரு blind spot உருவாகிறது. ஒரு மாதிரி மூலப் பொருளிலிருந்து காரணமிட்டிருக்கலாம்; ஆனால் முன் அறிந்த அறிவு, pattern matching அல்லது prompt-இன் பகுதி குறிப்புகளின் அடிப்படையில் ஊகித்திருக்கவும் முடியும்.

பல consumer பயன்பாடுகளில் அந்த வேறுபாடு கவனிக்கப்படாமல் போகலாம். சட்டம், மருத்துவம், நிதி, audit போன்ற துறைகளில் அது முடியாது. AI output பயன்படுத்தத்தக்கதாக மாற்றும் முதன்மை அம்சமே traceability என ஆய்வுக் கட்டுரை வாதிடுகிறது. ஒரு அமைப்பு தனது பதிலுக்கான ஆதாரமாக இருக்கும் பத்தி, அட்டவணை அல்லது படத்தை நம்பகமாக அடையாளம் காண முடியாவிட்டால், அழகாகக் காணப்படும் பதிலும் செயல்பாட்டளவில் பாதுகாப்பற்றதாக இருக்கலாம்.

CiteVQA அந்த இடைவெளியை நேரடியாக வெளிப்படுத்த வடிவமைக்கப்பட்டுள்ளது. ஒரு page number போதாது. மாதிரிகள் ஆவணத்தின் உள்ளே உள்ள துல்லியமான மூல இடத்தைக் குறிப்பிட வேண்டும்; குறிப்பிட்ட ஆதார உருப்படியின் அளவிற்கு வரை செல்ல வேண்டும்.

A Gatik autonomous truck at a PepsiCo distribution center.

Gatik, PepsiCo வலையில் autonomous freight பங்கைக் மேலும் ஆழப்படுத்துகிறது

PepsiCo, Gatik உடனான தனது பணியை multi-year deal மூலம் விரிவுபடுத்தியுள்ளது; இது North American food and beverage logistics-இல் autonomous middle-mile freight-ஐ மேலும் ஆழமாக கொண்டு செல்கிறது.

Read article

சாதாரண document QA-வைவிட கடினமான சோதனை

இந்த பெஞ்ச்மார்க்கில் ஏழு தலைப்புப் பகுதிகளைச் சேர்ந்த 711 PDF-களில் 1,897 கேள்விகள் உள்ளன; இதில் 451 ஆவணங்கள் ஆங்கிலத்தில், 260 சீன மொழியில் உள்ளன. சராசரி ஆவண நீளம் 40.6 பக்கங்கள்; எனவே இது பல தற்போதைய ஆவண பெஞ்ச்மார்க்குகளைவிட குறிப்பிடத்தக்க அளவு நீளமானது.

முழுக்க கைமுறை லேபிளிங்கை சாராமல், ஆராய்ச்சியாளர்கள் ஒரு தானியங்கி pipeline-ஐ உருவாக்கினர். ஆவணங்கள் தனித்தனி கூறுகளாகப் பிரிக்கப்படுகின்றன; பின்னர் மாதிரிகள் ஆதாரச் சங்கிலிகளைத் தொடர்கின்றன. ஒவ்வொரு மேற்கோளிடப்பட்ட கூறும் உண்மையில் அவசியமானதா என்பதை, ஆவணங்களை ஒன்றொன்றாக நீக்கி, மாதிரி இன்னும் பதில் சொல்ல முடியுமா என்று பரிசோதித்து, அமைப்பு சோதிக்கிறது. முடியாவிட்டால், அந்த ஆதாரம் அத்தியாவசியமாகக் கருதப்படுகிறது.

முக்கிய அளவுகோல் Strict Attributed Accuracy. அந்த மதிப்பீட்டில், ஒரு மாதிரிக்கு இரு பகுதிகளும் வெற்றியடைந்தால் மட்டுமே மதிப்பெண் கிடைக்கும்: பதில் சரியாக இருக்க வேண்டும், மேலும் மேற்கோள் சரியான ஆதாரப் பொருளைத் தொட வேண்டும். சரியான பதிலுடன் தவறான மேற்கோள் இருந்தால் பூஜ்யம்.

முன்னணி மாதிரிகளும் இன்னும் பின்னே

இருபது தற்போதைய மாதிரிகள் மதிப்பிடப்பட்டன. சிறந்த செயல்திறன் காட்டிய அமைப்பு, Gemini-3.1-Pro-Preview, கடுமையான அளவுகோலில் 100-இல் 76 பெற்றது. இது வலுவான செயல்திறன், ஆனால் கிடைக்கக்கூடிய சிறந்த முடிவுக்கும் நம்பகமான near-perfect attribution-க்கும் இடையில் இன்னும் பெரிய இடைவெளி உள்ளது.

பெஞ்ச்மார்க் பதிலின் தரத்துக்கும் ஆதாரத் தரத்துக்கும் இடையிலான முக்கிய வேறுபாட்டையும் வெளிப்படுத்தியது. GPT-5.4 raw answer performance-ல் 87.1 பெற்றதாக கூறப்படுகிறது, ஆனால் சரியான citation தேவைப்படும்போது அது 59 ஆகக் குறைந்தது. வேறு வார்த்தைகளில், மாதிரி என்ன சொல்ல வேண்டும் என்பதை அடிக்கடி அறிந்திருந்தது; ஆனால் ஆவணத்தில் பதில் எங்கு இருந்து வந்தது என்பதை அது தொடர்ந்து காட்டவில்லை.

open-source அமைப்புகள் அறிக்கையிடப்பட்ட முடிவுகளில் மிகவும் மோசமாக இருந்தன. ஒப்பீட்டில் மிக வலுவான இலவச மாதிரியாக விவரிக்கப்பட்ட Qwen3-VL-235B-A22B 22.5 பெற்றது. சிறிய open மாதிரிகள் பெரும்பாலும் 10-க்கும் கீழே இருந்தன. ஆராய்ச்சியாளர்கள் அந்த செயல்திறன் நிலையை ஒழுங்குமுறை கொண்ட துறைகளுக்கு மிக ஆபத்தானது என்று வரையறுக்கிறார்கள்.

Google மற்றும் OpenAI சீனாவுடன் தொடர்புடைய தனித்தனி AI தவறுபயன்பாட்டு நடவடிக்கைகளை வெளிப்படுத்தின

Google ஒரு AI-இயக்கப்பட்ட மோசடி வலையமைப்புக்கு எதிராக வழக்கு தொடர்ந்தது, அதே நேரத்தில் அமெரிக்க விவாதங்கள் மற்றும் உள்கட்டமைப்பு கதைகளை இலக்காக்கிய சீனாவுடன் தொடர்புடைய இரண்டு தாக்கம் செலுத்தும் குழுக்களை தடை செய்ததாக OpenAI கூறியது.

Read article

சரியான பக்கத்தைக் கண்டுபிடிப்பதே இன்னும் பெரிய சவால்

பெஞ்ச்மார்க்கின் மிகத் தெளிவான செய்திகளில் ஒன்று, நுணுக்கமான citation task தொடங்குவதற்கு முன்பே பல மாதிரிகள் சிரமப்படுகின்றன என்பதுதான். அவை பெரும்பாலும் சரியான பக்கத்தைக் கண்டுபிடிக்கத் தவறுகின்றன; அதனால் துல்லியமான paragraph- அல்லது figure-level attribution இன்னும் கடினமாகிறது.

ஏனென்றால் பயனர்கள் citation-ஐ உட்பொதிந்த பாதுகாப்பு அம்சமாக கருதுகிறார்கள். உண்மையில், citation வடிவம் ஒரு பலவீனமான retrieval படியை மறைக்கலாம். ஒரு அமைப்பு பதிலுடன் சாட்சியமெனத் தோன்றும் குறிப்புகளைச் சேர்த்தால், ஆதாரம் தவறாக இருந்தாலும் கூட, அது குறிப்பில்லா அமைப்பைவிட அதிக நம்பகமாகத் தோன்றலாம்.

மூலத்துடன் இணைந்த output-ஐ இயல்பாகவே நம்பத்தகுந்தது என்று கருதுவதில் தொழில் மேலும் கவனமாக இருக்க வேண்டும் என்பதை CiteVQA சுட்டிக்காட்டுகிறது. Attribution-ஐ அளவிட வேண்டும்; ஊகிக்கக் கூடாது.

நடைமுறை நம்பகத்தன்மைக்கான பெஞ்ச்மார்க்

இந்த ஆய்வின் முக்கியத்துவம் ஒரு மாதிரியை வெற்றியாளராக அறிவிப்பதில் குறைவாகவும், இலக்கை மறுவடிவமைப்பதில் அதிகமாகவும் உள்ளது. AI-ஐ தொழில்முறை வாசிப்பு, compliance review, due diligence அல்லது சான்று-அடிப்படையிலான உதவிக்கு பயன்படுத்த வேண்டுமெனில், அளவுகோல் fluent summaries மற்றும் பெரும்பாலும் சரியான பதில்களிலேயே நின்றுவிடக்கூடாது.

முக்கியமானது, ஒரு மாதிரி பயன்படுத்துவதாகக் கூறும் துல்லியமான ஆதாரத்தை மீட்டெடுக்க முடியுமா என்பதுதான். இந்த பெஞ்ச்மார்க் அதை வெளிப்படையாகவும் அளவிடக்கூடியதாகவும் மாற்றுகிறது. இது தற்போதைய அமைப்புகள், மேல் நிலையில் உள்ளவற்றையும் சேர்த்து, இந்தப் பகுதியில் ஒரே மாதிரியான செயல்திறன் காட்டவில்லை என்பதையும் காட்டுகிறது.

இதனால் document AI பயனற்றது என்று அர்த்தமில்லை. ஆனால் deployment முடிவுகள் “நன்றாகப் பதிலளிப்பது” மற்றும் “நன்றாக ground செய்யப்பட்டிருப்பது” என்பதை வேறுபடுத்த வேண்டும் என்பதே அர்த்தம். CiteVQA அவற்றை தனித் திறன்களாக வரையறுக்கிறது, மேலும் முடிவுகள் இரண்டாவது திறன் இன்னும் பின்னோக்கி இருப்பதைச் சுட்டுகின்றன.

enterprise வாங்குபவர்கள், ஒழுங்குமுறையாளர் குழுக்கள், மற்றும் research workflows-இல் AI-யை இணைக்கும் அணிகளுக்கான முக்கிய takeaway அதுதான். document intelligence-இல் அடுத்த போட்டி எல்லை, மேலும் நம்பிக்கையுடன் எழுதப்பட்ட உரை உருவாக்குவது இருக்காமல் போகலாம். சரியான மூலத்தின் சரியான வரிக்கு அந்த உரை துல்லியமாக இணைக்கப்பட்டிருக்கிறது என்பதை நிரூபிப்பதே ஆகலாம்.

இந்தக் கட்டுரை The Decoder-இன் செய்தியை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 மணி நேர ரோபோடிக்ஸ் தரவுத்தொகுப்பை ஓபன்-சோர்ஸ் செய்தது

X Square Robot, embodied AI அமைப்புகளுக்குத் தேவையான உண்மை-ரோபோ பயிற்சி தரவின் அளவைக் குறைப்பதை நோக்கமாகக் கொண்டு XRZero-G0 மற்றும் 2,000 மணி நேர பல்மாதிரி தரவுத்தொகுப்பை வெளியிட்டுள்ளது.

Read article

Originally published on the-decoder.com

சரியான பதில் மட்டும் போதாது

மேற்கோள் தரம் ஏன் முக்கியம்

Gatik, PepsiCo வலையில் autonomous freight பங்கைக் மேலும் ஆழப்படுத்துகிறது

சாதாரண document QA-வைவிட கடினமான சோதனை

முன்னணி மாதிரிகளும் இன்னும் பின்னே

Google மற்றும் OpenAI சீனாவுடன் தொடர்புடைய தனித்தனி AI தவறுபயன்பாட்டு நடவடிக்கைகளை வெளிப்படுத்தின

சரியான பக்கத்தைக் கண்டுபிடிப்பதே இன்னும் பெரிய சவால்

நடைமுறை நம்பகத்தன்மைக்கான பெஞ்ச்மார்க்

XRZero-G0 2,000 மணி நேர ரோபோடிக்ஸ் தரவுத்தொகுப்பை ஓபன்-சோர்ஸ் செய்தது

Comments (0)

Related Articles

கூகுள் விர்ஜினியாவில் முதலீடு செய்கிறது: $15 மில்லியன் ஆற்றல் நிதி மற்றும் 2,741 அப்ரென்டிஷிப் வாய்ப்புகள்

Keep Reading