జవాబు సరిగ్గా ఉండడమే ఇక సరిపోదు
కృత్రిమ మేధస్సులో పెరుగుతున్న పరిశోధన, ఒక మోడల్ ప్రశ్నకు జవాబు ఇవ్వగలదా అనే ప్రశ్న నుండి, ఆ జవాబు ఎక్కడి నుంచి వచ్చిందో అది నిరూపించగలదా అనే విషయానికి దృష్టిని మళ్లిస్తోంది. The Decoder హైలైట్ చేసిన కొత్త పరిశోధన ప్రకారం, అనేక ప్రధాన వ్యవస్థలు ఇప్పటికీ ఆ రెండో భాగంలో ఇబ్బంది పడుతున్నాయి.
పెకింగ్ విశ్వవిద్యాలయం మరియు షాంఘై ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లాబొరేటరీకి చెందిన పరిశోధకులు, డాక్యుమెంట్ ప్రశ్నోత్తరంలో జవాబు ఖచ్చితత్వం మరియు మూల attribution రెండింటినీ కొలవడానికి CiteVQA అనే బెంచ్మార్క్ను రూపొందించారు. వారి నిర్ధారణ, అధిక-ప్రమాద పరిస్థితుల్లో AIపై ఆధారపడాలనుకునే వారికి అసౌకర్యంగా ఉంటుంది: ఒక మోడల్ సరైన జవాబు ఇవ్వగలదు, అయినా తప్పు ఆధారాన్ని సూచించవచ్చు.
ఆ విఫలత మోడ్ను బృందం “attribution hallucination” అని పిలుస్తుంది. ప్రాక్టీస్లో, AI వ్యవస్థ తుది జవాబు సరైనదిగా ఉండటంతో విశ్వసనీయంగా కనిపించవచ్చు, కానీ మద్దతుగా ఇచ్చిన citation నిజంగా ఆ జవాబును సమర్థించదు.
citation నాణ్యత ఎందుకు ముఖ్యమైంది
DocVQA మరియు MMLongBench-Doc వంటి ప్రామాణిక డాక్యుమెంట్-విశ్లేషణ బెంచ్మార్క్లు సాధారణంగా తుది జవాబునే గ్రేడ్ చేస్తాయి. దాంతో ఒక పెద్ద blind spot మిగులుతుంది. మోడల్ సోర్స్ మెటీరియల్ ఆధారంగా తర్కించి ఉండవచ్చు; కానీ ముందుగా ఉన్న జ్ఞానం, pattern matching లేదా promptలోని భాగ సూచనల ఆధారంగా కూడా అంచనా వేసి ఉండవచ్చు.
చాలా వినియోగదారుల సందర్భాల్లో ఆ తేడా పట్టించుకోకుండా పోవచ్చు. కానీ చట్టం, వైద్యం, ఫైనాన్స్, ఆడిటింగ్లో అది సాధ్యం కాదు. AI output ఉపయోగపడాలంటే traceabilityనే కీలకం అని పేపర్ వాదిస్తోంది. ఒక వ్యవస్థ తన జవాబుకు మద్దతుగా ఉన్న పేరాగ్రాఫ్, పట్టిక లేదా ఫిగర్ను నమ్మకంగా గుర్తించలేకపోతే, polished response కూడా ఆపరేషన్ పరంగా ప్రమాదకరం కావచ్చు.
CiteVQA ఆ అంతరాన్ని నేరుగా వెలికితీయడానికి రూపొందించబడింది. ఒక page number సరిపోదు. మోడళ్లు డాక్యుమెంట్ లోపల ఉన్న నిర్దిష్ట source locationను, అక్కడి సహాయక అంశం వరకు, గుర్తించాలి.
సాధారణ document QA కంటే కఠినమైన పరీక్ష
ఈ బెంచ్మార్క్లో ఏడు సబ్జెక్ట్ ప్రాంతాల నుంచి 711 PDFలపై 1,897 ప్రశ్నలు ఉన్నాయి; వాటిలో 451 డాక్యుమెంట్లు ఇంగ్లీష్లో, 260 చైనీస్లో ఉన్నాయి. సగటు డాక్యుమెంట్ పొడవు 40.6 పేజీలు, కాబట్టి ఇది అనేక ప్రస్తుత డాక్యుమెంట్ బెంచ్మార్క్ల కంటే చాలా ఎక్కువ.
పూర్తిగా మాన్యువల్ లేబెలింగ్పై ఆధారపడకుండా, పరిశోధకులు ఒక ఆటోమేటెడ్ పైప్లైన్ను నిర్మించారు. డాక్యుమెంట్లను ప్రత్యేక అంశాలుగా విభజించి, తర్వాత మోడళ్లు evidence chainsను ట్రేస్ చేస్తాయి. ప్రతి cited component నిజంగా అవసరమా అనే విషయాన్ని, డాక్యుమెంట్లను ఒక్కొక్కటి తొలగించి, మోడల్ ఇంకా జవాబు ఇవ్వగలదా అని పరీక్షించి, వ్యవస్థ నిర్ధారిస్తుంది. ఇవ్వలేకపోతే, ఆ ఆధారం అవసరమైనదిగా పరిగణించబడుతుంది.
ముఖ్యమైన మెట్రిక్ Strict Attributed Accuracy. ఆ స్కోరింగ్లో, రెండు భాగాలు విజయవంతమైతేనే మోడల్కు క్రెడిట్ లభిస్తుంది: జవాబు సరైనదిగా ఉండాలి, citation సరైన సహాయక పదార్థంపై ఉండాలి. సరైన జవాబుతో తప్పు citation ఉంటే స్కోరు శూన్యం.
ఉత్తమ మోడళ్లు కూడా ఇంకా వెనుకబడ్డాయి
ఇరవై ప్రస్తుత మోడళ్లను మూల్యాంకనం చేశారు. అత్యుత్తమ పనితీరు కనబరిచిన వ్యవస్థ Gemini-3.1-Pro-Preview, strict metricపై 100కి 76 స్కోర్ చేసింది. ఇది బలమైన పనితీరు, కానీ ఉత్తమ అందుబాటులో ఉన్న ఫలితం మరియు దాదాపు పరిపూర్ణ, విశ్వసనీయ attribution మధ్య ఇంకా గణనీయమైన అంతరం ఉంది.
ఈ బెంచ్మార్క్ జవాబు నాణ్యత మరియు ఆధార నాణ్యత మధ్య ఉన్న గణనీయమైన తేడాను కూడా బయటపెట్టింది. GPT-5.4 raw answer performanceలో 87.1 స్కోర్ చేసినట్లు తెలిపినా, సరైన citation అవసరమైనప్పుడు అది 59కు పడిపోయింది. ఇతర మాటల్లో, మోడల్ ఏమి చెప్పాలో తరచుగా తెలుసుకుంది; కానీ డాక్యుమెంట్లో జవాబు ఎక్కడి నుంచి వచ్చిందో అది స్థిరంగా చూపలేకపోయింది.
open-source వ్యవస్థలు నివేదించబడిన ఫలితాల్లో చాలా తక్కువగా నిలిచాయి. పోలికలో అత్యంత బలమైన ఉచిత మోడల్గా పేర్కొన్న Qwen3-VL-235B-A22B 22.5 చేరింది. చిన్న open మోడళ్లు ఎక్కువగా 10 కంటే తక్కువలో నిలిచాయి. ఆ స్థాయి పనితీరు నియంత్రిత రంగాలకు అత్యంత ప్రమాదకరమని పరిశోధకులు అంటున్నారు.
సరైన పేజీని కనుగొనడం ఇంకా పెద్ద అడ్డంకి
బెంచ్మార్క్ నుండి వచ్చిన అత్యంత స్పష్టమైన సందేశాల్లో ఒకటి, సూక్ష్మ citation task ప్రారంభమయ్యే ముందే అనేక మోడళ్లు ఇబ్బంది పడుతున్నాయని. అవి తరచుగా సరైన పేజీని గుర్తించడంలో విఫలమవుతాయి, దాంతో ఖచ్చితమైన paragraph- లేదా figure-level attribution మరింత కష్టమవుతుంది.
దానికి కారణం, వినియోగదారులు citationsను అంతర్గత భద్రతా లక్షణంగా భావించడం. వాస్తవానికి, citation format బలహీనమైన retrieval దశను దాచిపెట్టవచ్చు. ఒక వ్యవస్థ జవాబుతో evidence-like referencesను జతచేస్తే, ఆధారం తప్పైనా, అది references లేని వ్యవస్థకంటే నమ్మకంగా అనిపించవచ్చు.
source-linked outputను సహజంగానే విశ్వసనీయమని భావించడంలో పరిశ్రమ మరింత జాగ్రత్తగా ఉండాలని CiteVQA సూచిస్తోంది. Attributionను కొలవాలి, ఊహించకూడదు.
ప్రాక్టికల్ trustworthinessపై కేంద్రీకృత బెంచ్మార్క్
ఈ అధ్యయనం ప్రాముఖ్యత ఒక మోడల్ను విజేతగా ప్రకటించడంలో కంటే, లక్ష్యాన్ని తిరిగి నిర్వచించడంలో ఎక్కువ. AIని professional reading, compliance review, due diligence లేదా evidence-based assistance కోసం వాడాలంటే, ప్రమాణం fluent summaries మరియు mostly correct answers వద్ద ఆగిపోకూడదు.
ముఖ్యమైనది, మోడల్ తాను ఉపయోగిస్తున్నట్లు చెప్పే ఖచ్చితమైన మద్దతును తిరిగి పొందగలదా అనేది. ఈ బెంచ్మార్క్ దాన్ని కనిపించేలా, కొలిచేలా చేస్తుంది. ఇది ప్రస్తుత వ్యవస్థలు, టాప్-టియర్ వాటితో సహా, ఈ అంశంలో అసమానంగా ఉన్నాయని కూడా చూపుతుంది.
దీని అర్థం document AI ఉపయోగం లేనిదని కాదు. కానీ deployment నిర్ణయాలు “బాగా జవాబు ఇవ్వడం” మరియు “బాగా groundedగా ఉండడం” మధ్య తేడా చూడాలి. CiteVQA వాటిని వేరు సామర్థ్యాలుగా చూపుతుంది, మరియు ఫలితాలు రెండవది ఇంకా వెనుకబడి ఉందని సూచిస్తున్నాయి.
enterprise కొనుగోలుదారులు, నియంత్రణాధికారులు, మరియు research workflowsలో AIని నిర్మిస్తున్న బృందాలకు ఇదే ప్రధాన takeaway. document intelligenceలో తదుపరి పోటీ సరిహద్దు మరింత ఆత్మవిశ్వాసంతో వ్రాసిన prose ఉత్పత్తి చేయడం కాకపోవచ్చు. అది, preciseగా, ఆ prose సరైన sourceలోని సరైన lineకి anchored అయిందని నిరూపించడం కావచ్చు.
ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.
Originally published on the-decoder.com



