AI मॉडेल्स अनेकदा बरोबर उत्तर देतात, पण चुकीचा स्रोत उद्धृत करतात

फक्त उत्तर बरोबर असणे आता पुरेसे नाही

कृत्रिम बुद्धिमत्तेतील वाढते संशोधन आता एखादा मॉडेल प्रश्नाचे उत्तर देऊ शकतो का, या प्रश्नापलीकडे जाऊन, ते उत्तर कुठून आले हे तो सिद्ध करू शकतो का, याकडे लक्ष देत आहे. The Decoder ने अधोरेखित केलेल्या नव्या संशोधनानुसार अनेक आघाडीची प्रणाली अजूनही त्या दुसऱ्या भागात अडखळतात.

पेकिंग विद्यापीठ आणि शांघाय आर्टिफिशियल इंटेलिजन्स लॅबोरेटरीमधील संशोधकांनी दस्तऐवज-आधारित प्रश्नोत्तरात उत्तराची अचूकता आणि स्रोत-आधार दोन्ही मोजण्यासाठी CiteVQA नावाचा बेंचमार्क तयार केला. उच्च-जोखमीच्या परिस्थितीत AI वर अवलंबून राहू इच्छिणाऱ्यांसाठी त्यांचा निष्कर्ष अस्वस्थ करणारा आहे: एखादे मॉडेल बरोबर उत्तर देऊ शकते आणि तरीही चुकीचा पुरावा दाखवू शकते.

टीम या अपयश प्रकाराला “attribution hallucination” म्हणते. प्रत्यक्षात याचा अर्थ असा की AI प्रणालीचे अंतिम उत्तर बरोबर असल्याने ते विश्वासार्ह वाटू शकते, पण त्यासोबत दिलेला citation प्रत्यक्षात त्या उत्तराचे समर्थन करत नाही.

citation ची गुणवत्ता का महत्त्वाची आहे

DocVQA आणि MMLongBench-Doc सारखे मानक दस्तऐवज-विश्लेषण बेंचमार्क सहसा अंतिम उत्तराचेच मूल्यांकन करतात. त्यामुळे एक मोठा blind spot राहतो. मॉडेलने कदाचित स्रोत सामग्रीवरून तर्क केला असेल; पण त्याने पूर्वज्ञान, pattern matching किंवा prompt मधील अंशतः संकेतांवरूनही अंदाज लावला असण्याची शक्यता असते.

अनेक ग्राहक वापरांमध्ये हा फरक दुर्लक्षित होऊ शकतो. पण कायदा, वैद्यक, वित्त आणि audit मध्ये ते चालत नाही. पेपरचा युक्तिवाद असा आहे की traceability हीच AI output वापरण्यायोग्य बनवते. जर प्रणालीला आपल्या उत्तराचा आधार असलेला परिच्छेद, तक्ता किंवा आकृती विश्वसनीयपणे ओळखता येत नसेल, तर सुंदर उत्तरही कार्यात्मकदृष्ट्या असुरक्षित ठरू शकते.

CiteVQA नेमका हाच फरक उघड करण्यासाठी तयार करण्यात आला आहे. फक्त page number पुरेसा नाही. मॉडेल्सना दस्तऐवजातील अचूक source location, विशिष्ट supporting element पर्यंत, ओळखावी लागते.

A Gatik autonomous truck at a PepsiCo distribution center.

Gatik ने PepsiCo नेटवर्कमध्ये autonomous freight ची भूमिका वाढवली

PepsiCo ने Gatik सोबतचे काम multi-year deal ने विस्तारले आहे, ज्यामुळे North American food and beverage logistics मध्ये autonomous middle-mile freight अधिक खोलवर पोहोचत आहे.

Read article

सामान्य document QA पेक्षा कठीण चाचणी

या बेंचमार्कमध्ये सात विषयक्षेत्रांतील 711 PDF वर 1,897 प्रश्न आहेत, त्यापैकी 451 दस्तऐवज इंग्रजीत आणि 260 चिनी भाषेत आहेत. सरासरी दस्तऐवजाची लांबी 40.6 पृष्ठे आहे, त्यामुळे हा संच अनेक विद्यमान दस्तऐवज बेंचमार्कपेक्षा खूपच मोठा आहे.

पूर्णपणे हाताने लेबलिंगवर अवलंबून न राहता, संशोधकांनी एक स्वयंचलित पाइपलाइन तयार केली. दस्तऐवज स्वतंत्र घटकांमध्ये विभागले जातात, आणि मग मॉडेल्स evidence chains शोधतात. प्रत्येक cited component खरोखर आवश्यक आहे का, हे तपासण्यासाठी दस्तऐवज एकेक करून काढून टाकले जातात आणि मॉडेल अजूनही उत्तर देऊ शकते का, हे पाहिले जाते. नाही तर तो पुरावा आवश्यक मानला जातो.

मुख्य मेट्रिक म्हणजे Strict Attributed Accuracy. त्या गुणांकनात, दोन्ही भाग यशस्वी झाले तरच मॉडेलला श्रेय मिळते: उत्तर बरोबर असले पाहिजे आणि citation योग्य आधारभूत साहित्यावर पोहोचला पाहिजे. बरोबर उत्तरासोबत चुकीचा citation असल्यास गुण शून्य.

आघाडीची मॉडेल्सही अजून बराच मागे

वीस सध्याच्या मॉडेल्सचे मूल्यांकन करण्यात आले. सर्वोत्कृष्ट कामगिरी करणारी प्रणाली, Gemini-3.1-Pro-Preview, कठोर मेट्रिकवर 100 पैकी 76 गुण मिळवून पुढे राहिली. ही चांगली कामगिरी आहे, पण तरीही सर्वोत्तम उपलब्ध निकाल आणि जवळपास परिपूर्ण, विश्वासार्ह attribution यांच्यात लक्षणीय अंतर राहते.

बेंचमार्कने उत्तराची गुणवत्ता आणि पुराव्याची गुणवत्ता यातील ठळक फरकही समोर आणला. GPT-5.4 ने raw answer performance वर 87.1 गुण मिळवले, असे सांगितले जाते, पण योग्य citation आवश्यक असताना ते 59 वर घसरले. दुसऱ्या शब्दांत, मॉडेलला काय म्हणायचे हे अनेकदा माहीत होते, पण दस्तऐवजात उत्तर कुठून आले ते ते सातत्याने दाखवू शकत नव्हते.

रिपोर्टेड निकालांमध्ये open-source प्रणालींची कामगिरी खूपच कमकुवत होती. तुलनेत सर्वात मजबूत मुक्त मॉडेल म्हणून वर्णन केलेल्या Qwen3-VL-235B-A22B ला 22.5 गुण मिळाले. लहान open मॉडेल्स बहुतेक 10 पेक्षा खाली राहिले. संशोधक या पातळीच्या कामगिरीला नियंत्रित उद्योगांसाठी अत्यंत धोकादायक मानतात.

Google आणि OpenAI यांनी चीनशी संबंधित वेगवेगळ्या AI गैरवापर मोहिमा उघड केल्या

Google ने कथित AI-सक्षम फसवणूक नेटवर्कवर खटला दाखल केला, तर OpenAI ने सांगितले की त्यांनी US चर्चांवर आणि पायाभूत सुविधांच्या कथनांवर लक्ष ठेवणारे चीनशी संबंधित दोन प्रभाव क्लस्टर्स खंडित केले.

Read article

योग्य पान शोधणे अजूनही मोठे आव्हान

बेंचमार्कचा सर्वात स्पष्ट संदेश म्हणजे अनेक मॉडेल्स सूक्ष्म citation task सुरू होण्याआधीच अडखळतात. ती अनेकदा योग्य पान ओळखण्यात अपयशी ठरतात, ज्यामुळे अचूक paragraph- किंवा figure-level attribution आणखी कठीण होते.

हे महत्त्वाचे आहे, कारण वापरकर्ते अनेकदा citations ला अंगभूत सुरक्षा वैशिष्ट्य मानतात. प्रत्यक्षात, citation format कमकुवत retrieval चरण लपवू शकतो. एखादी प्रणाली उत्तरासोबत पुरावा दिसणारे संदर्भ जोडत असेल, तर पुरावा चुकीचा असला तरी ती references नसलेल्या प्रणालीपेक्षा अधिक विश्वासार्ह वाटू शकते.

source-linked output ला स्वाभाविकच विश्वासार्ह समजण्याबाबत उद्योगाने अधिक काळजी घ्यावी, असे CiteVQA सूचित करते. Attribution मोजले पाहिजे, गृहित धरू नये.

व्यवहार्य विश्वासार्हतेसाठी बेंचमार्क

या अभ्यासाचे महत्त्व एखाद्या मॉडेलला विजेता घोषित करण्यापेक्षा लक्ष्य नव्याने परिभाषित करण्यात अधिक आहे. जर AI चा वापर professional reading, compliance review, due diligence किंवा evidence-based assistance साठी करायचा असेल, तर मापदंड fluent summaries आणि बहुतांशी बरोबर उत्तरांवर थांबू शकत नाही.

महत्त्वाचे म्हणजे, मॉडेल ते वापरत असल्याचा दावा करते तो अचूक आधार परत मिळवू शकते का. हा बेंचमार्क ते दृश्य आणि मोजण्यायोग्य बनवतो. तसेच तो दाखवतो की टॉप-टियरसह सध्याच्या प्रणाली या बाबतीत असमान आहेत.

याचा अर्थ document AI निरुपयोगी आहे, असा नाही. पण deployment निर्णयांमध्ये “चांगले उत्तर देणे” आणि “चांगल्या प्रकारे grounded असणे” यामध्ये फरक केला पाहिजे. CiteVQA त्यांना वेगवेगळ्या क्षमता मानते, आणि निकाल सूचित करतात की दुसरी क्षमता अजून मागे आहे.

enterprise खरेदीदार, नियामक आणि research workflows मध्ये AI एकत्र करणाऱ्या टीम्ससाठी हाच मुख्य takeaway आहे. document intelligence मधील पुढची स्पर्धात्मक सीमा कदाचित अधिक आत्मविश्वासाने लिहिलेलं prose तयार करणे नसेल. ती, अचूकपणे, ते prose योग्य source मधील योग्य line ला anchored आहे हे सिद्ध करणे असू शकते.

हा लेख The Decoder च्या वृत्तांकनावर आधारित आहे. मूळ लेख वाचा.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 ने 2,000 तासांचा रोबोटिक्स डेटासेट ओपन-सोर्स केला

X Square Robot ने XRZero-G0 आणि 2,000 तासांचा मल्टिमोडल डेटासेट जारी केला आहे, ज्याचा उद्देश embodied AI प्रणालींसाठी लागणारा वास्तविक-रोबोट प्रशिक्षण डेटा कमी करणे हा आहे.

Read article

Originally published on the-decoder.com

बेंचमार्क दाखवतो की AI प्रणाली अनेकदा बरोबर उत्तर देतात, पण चुकीचा पुरावा उद्धृत करतात

फक्त उत्तर बरोबर असणे आता पुरेसे नाही

citation ची गुणवत्ता का महत्त्वाची आहे

Gatik ने PepsiCo नेटवर्कमध्ये autonomous freight ची भूमिका वाढवली

सामान्य document QA पेक्षा कठीण चाचणी

आघाडीची मॉडेल्सही अजून बराच मागे

Google आणि OpenAI यांनी चीनशी संबंधित वेगवेगळ्या AI गैरवापर मोहिमा उघड केल्या

योग्य पान शोधणे अजूनही मोठे आव्हान

व्यवहार्य विश्वासार्हतेसाठी बेंचमार्क

XRZero-G0 ने 2,000 तासांचा रोबोटिक्स डेटासेट ओपन-सोर्स केला

Comments (0)

Keep Reading