జవాబు సరిగ్గా ఉండడమే ఇక సరిపోదు

కృత్రిమ మేధస్సులో పెరుగుతున్న పరిశోధన, ఒక మోడల్ ప్రశ్నకు జవాబు ఇవ్వగలదా అనే ప్రశ్న నుండి, ఆ జవాబు ఎక్కడి నుంచి వచ్చిందో అది నిరూపించగలదా అనే విషయానికి దృష్టిని మళ్లిస్తోంది. The Decoder హైలైట్ చేసిన కొత్త పరిశోధన ప్రకారం, అనేక ప్రధాన వ్యవస్థలు ఇప్పటికీ ఆ రెండో భాగంలో ఇబ్బంది పడుతున్నాయి.

పెకింగ్ విశ్వవిద్యాలయం మరియు షాంఘై ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లాబొరేటరీకి చెందిన పరిశోధకులు, డాక్యుమెంట్ ప్రశ్నోత్తరంలో జవాబు ఖచ్చితత్వం మరియు మూల attribution రెండింటినీ కొలవడానికి CiteVQA అనే బెంచ్‌మార్క్‌ను రూపొందించారు. వారి నిర్ధారణ, అధిక-ప్రమాద పరిస్థితుల్లో AIపై ఆధారపడాలనుకునే వారికి అసౌకర్యంగా ఉంటుంది: ఒక మోడల్ సరైన జవాబు ఇవ్వగలదు, అయినా తప్పు ఆధారాన్ని సూచించవచ్చు.

ఆ విఫలత మోడ్‌ను బృందం “attribution hallucination” అని పిలుస్తుంది. ప్రాక్టీస్‌లో, AI వ్యవస్థ తుది జవాబు సరైనదిగా ఉండటంతో విశ్వసనీయంగా కనిపించవచ్చు, కానీ మద్దతుగా ఇచ్చిన citation నిజంగా ఆ జవాబును సమర్థించదు.

citation నాణ్యత ఎందుకు ముఖ్యమైంది

DocVQA మరియు MMLongBench-Doc వంటి ప్రామాణిక డాక్యుమెంట్-విశ్లేషణ బెంచ్‌మార్క్‌లు సాధారణంగా తుది జవాబునే గ్రేడ్ చేస్తాయి. దాంతో ఒక పెద్ద blind spot మిగులుతుంది. మోడల్ సోర్స్ మెటీరియల్‌ ఆధారంగా తర్కించి ఉండవచ్చు; కానీ ముందుగా ఉన్న జ్ఞానం, pattern matching లేదా promptలోని భాగ సూచనల ఆధారంగా కూడా అంచనా వేసి ఉండవచ్చు.

చాలా వినియోగదారుల సందర్భాల్లో ఆ తేడా పట్టించుకోకుండా పోవచ్చు. కానీ చట్టం, వైద్యం, ఫైనాన్స్, ఆడిటింగ్‌లో అది సాధ్యం కాదు. AI output ఉపయోగపడాలంటే traceabilityనే కీలకం అని పేపర్ వాదిస్తోంది. ఒక వ్యవస్థ తన జవాబుకు మద్దతుగా ఉన్న పేరాగ్రాఫ్, పట్టిక లేదా ఫిగర్‌ను నమ్మకంగా గుర్తించలేకపోతే, polished response కూడా ఆపరేషన్ పరంగా ప్రమాదకరం కావచ్చు.

CiteVQA ఆ అంతరాన్ని నేరుగా వెలికితీయడానికి రూపొందించబడింది. ఒక page number సరిపోదు. మోడళ్లు డాక్యుమెంట్ లోపల ఉన్న నిర్దిష్ట source location‌ను, అక్కడి సహాయక అంశం వరకు, గుర్తించాలి.

సాధారణ document QA కంటే కఠినమైన పరీక్ష

ఈ బెంచ్‌మార్క్‌లో ఏడు సబ్జెక్ట్ ప్రాంతాల నుంచి 711 PDFలపై 1,897 ప్రశ్నలు ఉన్నాయి; వాటిలో 451 డాక్యుమెంట్లు ఇంగ్లీష్‌లో, 260 చైనీస్‌లో ఉన్నాయి. సగటు డాక్యుమెంట్ పొడవు 40.6 పేజీలు, కాబట్టి ఇది అనేక ప్రస్తుత డాక్యుమెంట్ బెంచ్‌మార్క్‌ల కంటే చాలా ఎక్కువ.

పూర్తిగా మాన్యువల్ లేబెలింగ్‌పై ఆధారపడకుండా, పరిశోధకులు ఒక ఆటోమేటెడ్ పైప్‌లైన్‌ను నిర్మించారు. డాక్యుమెంట్లను ప్రత్యేక అంశాలుగా విభజించి, తర్వాత మోడళ్లు evidence chains‌ను ట్రేస్ చేస్తాయి. ప్రతి cited component నిజంగా అవసరమా అనే విషయాన్ని, డాక్యుమెంట్లను ఒక్కొక్కటి తొలగించి, మోడల్ ఇంకా జవాబు ఇవ్వగలదా అని పరీక్షించి, వ్యవస్థ నిర్ధారిస్తుంది. ఇవ్వలేకపోతే, ఆ ఆధారం అవసరమైనదిగా పరిగణించబడుతుంది.

ముఖ్యమైన మెట్రిక్ Strict Attributed Accuracy. ఆ స్కోరింగ్‌లో, రెండు భాగాలు విజయవంతమైతేనే మోడల్‌కు క్రెడిట్ లభిస్తుంది: జవాబు సరైనదిగా ఉండాలి, citation సరైన సహాయక పదార్థంపై ఉండాలి. సరైన జవాబుతో తప్పు citation ఉంటే స్కోరు శూన్యం.

ఉత్తమ మోడళ్లు కూడా ఇంకా వెనుకబడ్డాయి

ఇరవై ప్రస్తుత మోడళ్లను మూల్యాంకనం చేశారు. అత్యుత్తమ పనితీరు కనబరిచిన వ్యవస్థ Gemini-3.1-Pro-Preview, strict metricపై 100కి 76 స్కోర్ చేసింది. ఇది బలమైన పనితీరు, కానీ ఉత్తమ అందుబాటులో ఉన్న ఫలితం మరియు దాదాపు పరిపూర్ణ, విశ్వసనీయ attribution మధ్య ఇంకా గణనీయమైన అంతరం ఉంది.

ఈ బెంచ్‌మార్క్ జవాబు నాణ్యత మరియు ఆధార నాణ్యత మధ్య ఉన్న గణనీయమైన తేడాను కూడా బయటపెట్టింది. GPT-5.4 raw answer performanceలో 87.1 స్కోర్ చేసినట్లు తెలిపినా, సరైన citation అవసరమైనప్పుడు అది 59కు పడిపోయింది. ఇతర మాటల్లో, మోడల్ ఏమి చెప్పాలో తరచుగా తెలుసుకుంది; కానీ డాక్యుమెంట్‌లో జవాబు ఎక్కడి నుంచి వచ్చిందో అది స్థిరంగా చూపలేకపోయింది.

open-source వ్యవస్థలు నివేదించబడిన ఫలితాల్లో చాలా తక్కువగా నిలిచాయి. పోలికలో అత్యంత బలమైన ఉచిత మోడల్‌గా పేర్కొన్న Qwen3-VL-235B-A22B 22.5 చేరింది. చిన్న open మోడళ్లు ఎక్కువగా 10 కంటే తక్కువలో నిలిచాయి. ఆ స్థాయి పనితీరు నియంత్రిత రంగాలకు అత్యంత ప్రమాదకరమని పరిశోధకులు అంటున్నారు.

సరైన పేజీని కనుగొనడం ఇంకా పెద్ద అడ్డంకి

బెంచ్‌మార్క్ నుండి వచ్చిన అత్యంత స్పష్టమైన సందేశాల్లో ఒకటి, సూక్ష్మ citation task ప్రారంభమయ్యే ముందే అనేక మోడళ్లు ఇబ్బంది పడుతున్నాయని. అవి తరచుగా సరైన పేజీని గుర్తించడంలో విఫలమవుతాయి, దాంతో ఖచ్చితమైన paragraph- లేదా figure-level attribution మరింత కష్టమవుతుంది.

దానికి కారణం, వినియోగదారులు citations‌ను అంతర్గత భద్రతా లక్షణంగా భావించడం. వాస్తవానికి, citation format బలహీనమైన retrieval దశను దాచిపెట్టవచ్చు. ఒక వ్యవస్థ జవాబుతో evidence-like references‌ను జతచేస్తే, ఆధారం తప్పైనా, అది references లేని వ్యవస్థకంటే నమ్మకంగా అనిపించవచ్చు.

source-linked outputను సహజంగానే విశ్వసనీయమని భావించడంలో పరిశ్రమ మరింత జాగ్రత్తగా ఉండాలని CiteVQA సూచిస్తోంది. Attributionను కొలవాలి, ఊహించకూడదు.

ప్రాక్టికల్ trustworthinessపై కేంద్రీకృత బెంచ్‌మార్క్

ఈ అధ్యయనం ప్రాముఖ్యత ఒక మోడల్‌ను విజేతగా ప్రకటించడంలో కంటే, లక్ష్యాన్ని తిరిగి నిర్వచించడంలో ఎక్కువ. AIని professional reading, compliance review, due diligence లేదా evidence-based assistance కోసం వాడాలంటే, ప్రమాణం fluent summaries మరియు mostly correct answers వద్ద ఆగిపోకూడదు.

ముఖ్యమైనది, మోడల్ తాను ఉపయోగిస్తున్నట్లు చెప్పే ఖచ్చితమైన మద్దతును తిరిగి పొందగలదా అనేది. ఈ బెంచ్‌మార్క్ దాన్ని కనిపించేలా, కొలిచేలా చేస్తుంది. ఇది ప్రస్తుత వ్యవస్థలు, టాప్-టియర్ వాటితో సహా, ఈ అంశంలో అసమానంగా ఉన్నాయని కూడా చూపుతుంది.

దీని అర్థం document AI ఉపయోగం లేనిదని కాదు. కానీ deployment నిర్ణయాలు “బాగా జవాబు ఇవ్వడం” మరియు “బాగా groundedగా ఉండడం” మధ్య తేడా చూడాలి. CiteVQA వాటిని వేరు సామర్థ్యాలుగా చూపుతుంది, మరియు ఫలితాలు రెండవది ఇంకా వెనుకబడి ఉందని సూచిస్తున్నాయి.

enterprise కొనుగోలుదారులు, నియంత్రణాధికారులు, మరియు research workflowsలో AIని నిర్మిస్తున్న బృందాలకు ఇదే ప్రధాన takeaway. document intelligence‌లో తదుపరి పోటీ సరిహద్దు మరింత ఆత్మవిశ్వాసంతో వ్రాసిన prose ఉత్పత్తి చేయడం కాకపోవచ్చు. అది, precise‌గా, ఆ prose సరైన sourceలోని సరైన lineకి anchored అయిందని నిరూపించడం కావచ్చు.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com