AI మోడళ్లు తరచూ సరైన జవాబులు ఇచ్చినా తప్పు మూలాన్ని citation చేస్తాయి

జవాబు సరిగ్గా ఉండడమే ఇక సరిపోదు

కృత్రిమ మేధస్సులో పెరుగుతున్న పరిశోధన, ఒక మోడల్ ప్రశ్నకు జవాబు ఇవ్వగలదా అనే ప్రశ్న నుండి, ఆ జవాబు ఎక్కడి నుంచి వచ్చిందో అది నిరూపించగలదా అనే విషయానికి దృష్టిని మళ్లిస్తోంది. The Decoder హైలైట్ చేసిన కొత్త పరిశోధన ప్రకారం, అనేక ప్రధాన వ్యవస్థలు ఇప్పటికీ ఆ రెండో భాగంలో ఇబ్బంది పడుతున్నాయి.

పెకింగ్ విశ్వవిద్యాలయం మరియు షాంఘై ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లాబొరేటరీకి చెందిన పరిశోధకులు, డాక్యుమెంట్ ప్రశ్నోత్తరంలో జవాబు ఖచ్చితత్వం మరియు మూల attribution రెండింటినీ కొలవడానికి CiteVQA అనే బెంచ్‌మార్క్‌ను రూపొందించారు. వారి నిర్ధారణ, అధిక-ప్రమాద పరిస్థితుల్లో AIపై ఆధారపడాలనుకునే వారికి అసౌకర్యంగా ఉంటుంది: ఒక మోడల్ సరైన జవాబు ఇవ్వగలదు, అయినా తప్పు ఆధారాన్ని సూచించవచ్చు.

ఆ విఫలత మోడ్‌ను బృందం “attribution hallucination” అని పిలుస్తుంది. ప్రాక్టీస్‌లో, AI వ్యవస్థ తుది జవాబు సరైనదిగా ఉండటంతో విశ్వసనీయంగా కనిపించవచ్చు, కానీ మద్దతుగా ఇచ్చిన citation నిజంగా ఆ జవాబును సమర్థించదు.

citation నాణ్యత ఎందుకు ముఖ్యమైంది

DocVQA మరియు MMLongBench-Doc వంటి ప్రామాణిక డాక్యుమెంట్-విశ్లేషణ బెంచ్‌మార్క్‌లు సాధారణంగా తుది జవాబునే గ్రేడ్ చేస్తాయి. దాంతో ఒక పెద్ద blind spot మిగులుతుంది. మోడల్ సోర్స్ మెటీరియల్‌ ఆధారంగా తర్కించి ఉండవచ్చు; కానీ ముందుగా ఉన్న జ్ఞానం, pattern matching లేదా promptలోని భాగ సూచనల ఆధారంగా కూడా అంచనా వేసి ఉండవచ్చు.

చాలా వినియోగదారుల సందర్భాల్లో ఆ తేడా పట్టించుకోకుండా పోవచ్చు. కానీ చట్టం, వైద్యం, ఫైనాన్స్, ఆడిటింగ్‌లో అది సాధ్యం కాదు. AI output ఉపయోగపడాలంటే traceabilityనే కీలకం అని పేపర్ వాదిస్తోంది. ఒక వ్యవస్థ తన జవాబుకు మద్దతుగా ఉన్న పేరాగ్రాఫ్, పట్టిక లేదా ఫిగర్‌ను నమ్మకంగా గుర్తించలేకపోతే, polished response కూడా ఆపరేషన్ పరంగా ప్రమాదకరం కావచ్చు.

CiteVQA ఆ అంతరాన్ని నేరుగా వెలికితీయడానికి రూపొందించబడింది. ఒక page number సరిపోదు. మోడళ్లు డాక్యుమెంట్ లోపల ఉన్న నిర్దిష్ట source location‌ను, అక్కడి సహాయక అంశం వరకు, గుర్తించాలి.

A Gatik autonomous truck at a PepsiCo distribution center.

Gatik PepsiCo నెట్‌వర్క్‌లో autonomous freight పాత్రను లోతుగా పెంచుతోంది

PepsiCo, Gatikతో తన పనిని multi-year deal ద్వారా విస్తరించింది; ఇది North American food and beverage logisticsలో autonomous middle-mile freightను మరింత లోతుగా తీసుకెళ్తోంది.

Read article

సాధారణ document QA కంటే కఠినమైన పరీక్ష

ఈ బెంచ్‌మార్క్‌లో ఏడు సబ్జెక్ట్ ప్రాంతాల నుంచి 711 PDFలపై 1,897 ప్రశ్నలు ఉన్నాయి; వాటిలో 451 డాక్యుమెంట్లు ఇంగ్లీష్‌లో, 260 చైనీస్‌లో ఉన్నాయి. సగటు డాక్యుమెంట్ పొడవు 40.6 పేజీలు, కాబట్టి ఇది అనేక ప్రస్తుత డాక్యుమెంట్ బెంచ్‌మార్క్‌ల కంటే చాలా ఎక్కువ.

పూర్తిగా మాన్యువల్ లేబెలింగ్‌పై ఆధారపడకుండా, పరిశోధకులు ఒక ఆటోమేటెడ్ పైప్‌లైన్‌ను నిర్మించారు. డాక్యుమెంట్లను ప్రత్యేక అంశాలుగా విభజించి, తర్వాత మోడళ్లు evidence chains‌ను ట్రేస్ చేస్తాయి. ప్రతి cited component నిజంగా అవసరమా అనే విషయాన్ని, డాక్యుమెంట్లను ఒక్కొక్కటి తొలగించి, మోడల్ ఇంకా జవాబు ఇవ్వగలదా అని పరీక్షించి, వ్యవస్థ నిర్ధారిస్తుంది. ఇవ్వలేకపోతే, ఆ ఆధారం అవసరమైనదిగా పరిగణించబడుతుంది.

ముఖ్యమైన మెట్రిక్ Strict Attributed Accuracy. ఆ స్కోరింగ్‌లో, రెండు భాగాలు విజయవంతమైతేనే మోడల్‌కు క్రెడిట్ లభిస్తుంది: జవాబు సరైనదిగా ఉండాలి, citation సరైన సహాయక పదార్థంపై ఉండాలి. సరైన జవాబుతో తప్పు citation ఉంటే స్కోరు శూన్యం.

ఉత్తమ మోడళ్లు కూడా ఇంకా వెనుకబడ్డాయి

ఇరవై ప్రస్తుత మోడళ్లను మూల్యాంకనం చేశారు. అత్యుత్తమ పనితీరు కనబరిచిన వ్యవస్థ Gemini-3.1-Pro-Preview, strict metricపై 100కి 76 స్కోర్ చేసింది. ఇది బలమైన పనితీరు, కానీ ఉత్తమ అందుబాటులో ఉన్న ఫలితం మరియు దాదాపు పరిపూర్ణ, విశ్వసనీయ attribution మధ్య ఇంకా గణనీయమైన అంతరం ఉంది.

ఈ బెంచ్‌మార్క్ జవాబు నాణ్యత మరియు ఆధార నాణ్యత మధ్య ఉన్న గణనీయమైన తేడాను కూడా బయటపెట్టింది. GPT-5.4 raw answer performanceలో 87.1 స్కోర్ చేసినట్లు తెలిపినా, సరైన citation అవసరమైనప్పుడు అది 59కు పడిపోయింది. ఇతర మాటల్లో, మోడల్ ఏమి చెప్పాలో తరచుగా తెలుసుకుంది; కానీ డాక్యుమెంట్‌లో జవాబు ఎక్కడి నుంచి వచ్చిందో అది స్థిరంగా చూపలేకపోయింది.

open-source వ్యవస్థలు నివేదించబడిన ఫలితాల్లో చాలా తక్కువగా నిలిచాయి. పోలికలో అత్యంత బలమైన ఉచిత మోడల్‌గా పేర్కొన్న Qwen3-VL-235B-A22B 22.5 చేరింది. చిన్న open మోడళ్లు ఎక్కువగా 10 కంటే తక్కువలో నిలిచాయి. ఆ స్థాయి పనితీరు నియంత్రిత రంగాలకు అత్యంత ప్రమాదకరమని పరిశోధకులు అంటున్నారు.

Google మరియు OpenAI చైనాతో సంబంధం ఉన్న వేర్వేరు AI దుర్వినియోగ కార్యకలాపాలను బయటపెట్టాయి

Google ఒక AI-సক্ষম మోసపు నెట్‌వర్క్‌పై దావా వేసింది, అదే సమయంలో US చర్చలు మరియు మౌలిక సదుపాయాల కథనాలను లక్ష్యంగా చేసుకున్న చైనాతో సంబంధం ఉన్న రెండు ప్రభావ క్లస్టర్లను అడ్డుకున్నామని OpenAI తెలిపింది.

Read article

సరైన పేజీని కనుగొనడం ఇంకా పెద్ద అడ్డంకి

బెంచ్‌మార్క్ నుండి వచ్చిన అత్యంత స్పష్టమైన సందేశాల్లో ఒకటి, సూక్ష్మ citation task ప్రారంభమయ్యే ముందే అనేక మోడళ్లు ఇబ్బంది పడుతున్నాయని. అవి తరచుగా సరైన పేజీని గుర్తించడంలో విఫలమవుతాయి, దాంతో ఖచ్చితమైన paragraph- లేదా figure-level attribution మరింత కష్టమవుతుంది.

దానికి కారణం, వినియోగదారులు citations‌ను అంతర్గత భద్రతా లక్షణంగా భావించడం. వాస్తవానికి, citation format బలహీనమైన retrieval దశను దాచిపెట్టవచ్చు. ఒక వ్యవస్థ జవాబుతో evidence-like references‌ను జతచేస్తే, ఆధారం తప్పైనా, అది references లేని వ్యవస్థకంటే నమ్మకంగా అనిపించవచ్చు.

source-linked outputను సహజంగానే విశ్వసనీయమని భావించడంలో పరిశ్రమ మరింత జాగ్రత్తగా ఉండాలని CiteVQA సూచిస్తోంది. Attributionను కొలవాలి, ఊహించకూడదు.

ప్రాక్టికల్ trustworthinessపై కేంద్రీకృత బెంచ్‌మార్క్

ఈ అధ్యయనం ప్రాముఖ్యత ఒక మోడల్‌ను విజేతగా ప్రకటించడంలో కంటే, లక్ష్యాన్ని తిరిగి నిర్వచించడంలో ఎక్కువ. AIని professional reading, compliance review, due diligence లేదా evidence-based assistance కోసం వాడాలంటే, ప్రమాణం fluent summaries మరియు mostly correct answers వద్ద ఆగిపోకూడదు.

ముఖ్యమైనది, మోడల్ తాను ఉపయోగిస్తున్నట్లు చెప్పే ఖచ్చితమైన మద్దతును తిరిగి పొందగలదా అనేది. ఈ బెంచ్‌మార్క్ దాన్ని కనిపించేలా, కొలిచేలా చేస్తుంది. ఇది ప్రస్తుత వ్యవస్థలు, టాప్-టియర్ వాటితో సహా, ఈ అంశంలో అసమానంగా ఉన్నాయని కూడా చూపుతుంది.

దీని అర్థం document AI ఉపయోగం లేనిదని కాదు. కానీ deployment నిర్ణయాలు “బాగా జవాబు ఇవ్వడం” మరియు “బాగా groundedగా ఉండడం” మధ్య తేడా చూడాలి. CiteVQA వాటిని వేరు సామర్థ్యాలుగా చూపుతుంది, మరియు ఫలితాలు రెండవది ఇంకా వెనుకబడి ఉందని సూచిస్తున్నాయి.

enterprise కొనుగోలుదారులు, నియంత్రణాధికారులు, మరియు research workflowsలో AIని నిర్మిస్తున్న బృందాలకు ఇదే ప్రధాన takeaway. document intelligence‌లో తదుపరి పోటీ సరిహద్దు మరింత ఆత్మవిశ్వాసంతో వ్రాసిన prose ఉత్పత్తి చేయడం కాకపోవచ్చు. అది, precise‌గా, ఆ prose సరైన sourceలోని సరైన lineకి anchored అయిందని నిరూపించడం కావచ్చు.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 గంటల రోబోటిక్స్ డేటాసెట్‌ను ఓపెన్-సోర్స్ చేసింది

X Square Robot, embodied AI వ్యవస్థలకు అవసరమైన నిజమైన రోబోట్ శిక్షణ డేటా పరిమాణాన్ని తగ్గించడానికి లక్ష్యంగా XRZero-G0 మరియు 2,000 గంటల మల్టీమోడల్ డేటాసెట్‌ను విడుదల చేసింది.

Read article

Originally published on the-decoder.com

బెంచ్‌మార్క్ AI వ్యవస్థలు తరచూ సరిగ్గానే జవాబులు ఇచ్చినా తప్పు ఆధారాలను సూచిస్తున్నాయని చూపిస్తోంది

జవాబు సరిగ్గా ఉండడమే ఇక సరిపోదు

citation నాణ్యత ఎందుకు ముఖ్యమైంది

Gatik PepsiCo నెట్‌వర్క్‌లో autonomous freight పాత్రను లోతుగా పెంచుతోంది

సాధారణ document QA కంటే కఠినమైన పరీక్ష

ఉత్తమ మోడళ్లు కూడా ఇంకా వెనుకబడ్డాయి

Google మరియు OpenAI చైనాతో సంబంధం ఉన్న వేర్వేరు AI దుర్వినియోగ కార్యకలాపాలను బయటపెట్టాయి

సరైన పేజీని కనుగొనడం ఇంకా పెద్ద అడ్డంకి

ప్రాక్టికల్ trustworthinessపై కేంద్రీకృత బెంచ్‌మార్క్

XRZero-G0 2,000 గంటల రోబోటిక్స్ డేటాసెట్‌ను ఓపెన్-సోర్స్ చేసింది

Comments (0)

Keep Reading