फक्त उत्तर बरोबर असणे आता पुरेसे नाही
कृत्रिम बुद्धिमत्तेतील वाढते संशोधन आता एखादा मॉडेल प्रश्नाचे उत्तर देऊ शकतो का, या प्रश्नापलीकडे जाऊन, ते उत्तर कुठून आले हे तो सिद्ध करू शकतो का, याकडे लक्ष देत आहे. The Decoder ने अधोरेखित केलेल्या नव्या संशोधनानुसार अनेक आघाडीची प्रणाली अजूनही त्या दुसऱ्या भागात अडखळतात.
पेकिंग विद्यापीठ आणि शांघाय आर्टिफिशियल इंटेलिजन्स लॅबोरेटरीमधील संशोधकांनी दस्तऐवज-आधारित प्रश्नोत्तरात उत्तराची अचूकता आणि स्रोत-आधार दोन्ही मोजण्यासाठी CiteVQA नावाचा बेंचमार्क तयार केला. उच्च-जोखमीच्या परिस्थितीत AI वर अवलंबून राहू इच्छिणाऱ्यांसाठी त्यांचा निष्कर्ष अस्वस्थ करणारा आहे: एखादे मॉडेल बरोबर उत्तर देऊ शकते आणि तरीही चुकीचा पुरावा दाखवू शकते.
टीम या अपयश प्रकाराला “attribution hallucination” म्हणते. प्रत्यक्षात याचा अर्थ असा की AI प्रणालीचे अंतिम उत्तर बरोबर असल्याने ते विश्वासार्ह वाटू शकते, पण त्यासोबत दिलेला citation प्रत्यक्षात त्या उत्तराचे समर्थन करत नाही.
citation ची गुणवत्ता का महत्त्वाची आहे
DocVQA आणि MMLongBench-Doc सारखे मानक दस्तऐवज-विश्लेषण बेंचमार्क सहसा अंतिम उत्तराचेच मूल्यांकन करतात. त्यामुळे एक मोठा blind spot राहतो. मॉडेलने कदाचित स्रोत सामग्रीवरून तर्क केला असेल; पण त्याने पूर्वज्ञान, pattern matching किंवा prompt मधील अंशतः संकेतांवरूनही अंदाज लावला असण्याची शक्यता असते.
अनेक ग्राहक वापरांमध्ये हा फरक दुर्लक्षित होऊ शकतो. पण कायदा, वैद्यक, वित्त आणि audit मध्ये ते चालत नाही. पेपरचा युक्तिवाद असा आहे की traceability हीच AI output वापरण्यायोग्य बनवते. जर प्रणालीला आपल्या उत्तराचा आधार असलेला परिच्छेद, तक्ता किंवा आकृती विश्वसनीयपणे ओळखता येत नसेल, तर सुंदर उत्तरही कार्यात्मकदृष्ट्या असुरक्षित ठरू शकते.
CiteVQA नेमका हाच फरक उघड करण्यासाठी तयार करण्यात आला आहे. फक्त page number पुरेसा नाही. मॉडेल्सना दस्तऐवजातील अचूक source location, विशिष्ट supporting element पर्यंत, ओळखावी लागते.
सामान्य document QA पेक्षा कठीण चाचणी
या बेंचमार्कमध्ये सात विषयक्षेत्रांतील 711 PDF वर 1,897 प्रश्न आहेत, त्यापैकी 451 दस्तऐवज इंग्रजीत आणि 260 चिनी भाषेत आहेत. सरासरी दस्तऐवजाची लांबी 40.6 पृष्ठे आहे, त्यामुळे हा संच अनेक विद्यमान दस्तऐवज बेंचमार्कपेक्षा खूपच मोठा आहे.
पूर्णपणे हाताने लेबलिंगवर अवलंबून न राहता, संशोधकांनी एक स्वयंचलित पाइपलाइन तयार केली. दस्तऐवज स्वतंत्र घटकांमध्ये विभागले जातात, आणि मग मॉडेल्स evidence chains शोधतात. प्रत्येक cited component खरोखर आवश्यक आहे का, हे तपासण्यासाठी दस्तऐवज एकेक करून काढून टाकले जातात आणि मॉडेल अजूनही उत्तर देऊ शकते का, हे पाहिले जाते. नाही तर तो पुरावा आवश्यक मानला जातो.
मुख्य मेट्रिक म्हणजे Strict Attributed Accuracy. त्या गुणांकनात, दोन्ही भाग यशस्वी झाले तरच मॉडेलला श्रेय मिळते: उत्तर बरोबर असले पाहिजे आणि citation योग्य आधारभूत साहित्यावर पोहोचला पाहिजे. बरोबर उत्तरासोबत चुकीचा citation असल्यास गुण शून्य.
आघाडीची मॉडेल्सही अजून बराच मागे
वीस सध्याच्या मॉडेल्सचे मूल्यांकन करण्यात आले. सर्वोत्कृष्ट कामगिरी करणारी प्रणाली, Gemini-3.1-Pro-Preview, कठोर मेट्रिकवर 100 पैकी 76 गुण मिळवून पुढे राहिली. ही चांगली कामगिरी आहे, पण तरीही सर्वोत्तम उपलब्ध निकाल आणि जवळपास परिपूर्ण, विश्वासार्ह attribution यांच्यात लक्षणीय अंतर राहते.
बेंचमार्कने उत्तराची गुणवत्ता आणि पुराव्याची गुणवत्ता यातील ठळक फरकही समोर आणला. GPT-5.4 ने raw answer performance वर 87.1 गुण मिळवले, असे सांगितले जाते, पण योग्य citation आवश्यक असताना ते 59 वर घसरले. दुसऱ्या शब्दांत, मॉडेलला काय म्हणायचे हे अनेकदा माहीत होते, पण दस्तऐवजात उत्तर कुठून आले ते ते सातत्याने दाखवू शकत नव्हते.
रिपोर्टेड निकालांमध्ये open-source प्रणालींची कामगिरी खूपच कमकुवत होती. तुलनेत सर्वात मजबूत मुक्त मॉडेल म्हणून वर्णन केलेल्या Qwen3-VL-235B-A22B ला 22.5 गुण मिळाले. लहान open मॉडेल्स बहुतेक 10 पेक्षा खाली राहिले. संशोधक या पातळीच्या कामगिरीला नियंत्रित उद्योगांसाठी अत्यंत धोकादायक मानतात.
योग्य पान शोधणे अजूनही मोठे आव्हान
बेंचमार्कचा सर्वात स्पष्ट संदेश म्हणजे अनेक मॉडेल्स सूक्ष्म citation task सुरू होण्याआधीच अडखळतात. ती अनेकदा योग्य पान ओळखण्यात अपयशी ठरतात, ज्यामुळे अचूक paragraph- किंवा figure-level attribution आणखी कठीण होते.
हे महत्त्वाचे आहे, कारण वापरकर्ते अनेकदा citations ला अंगभूत सुरक्षा वैशिष्ट्य मानतात. प्रत्यक्षात, citation format कमकुवत retrieval चरण लपवू शकतो. एखादी प्रणाली उत्तरासोबत पुरावा दिसणारे संदर्भ जोडत असेल, तर पुरावा चुकीचा असला तरी ती references नसलेल्या प्रणालीपेक्षा अधिक विश्वासार्ह वाटू शकते.
source-linked output ला स्वाभाविकच विश्वासार्ह समजण्याबाबत उद्योगाने अधिक काळजी घ्यावी, असे CiteVQA सूचित करते. Attribution मोजले पाहिजे, गृहित धरू नये.
व्यवहार्य विश्वासार्हतेसाठी बेंचमार्क
या अभ्यासाचे महत्त्व एखाद्या मॉडेलला विजेता घोषित करण्यापेक्षा लक्ष्य नव्याने परिभाषित करण्यात अधिक आहे. जर AI चा वापर professional reading, compliance review, due diligence किंवा evidence-based assistance साठी करायचा असेल, तर मापदंड fluent summaries आणि बहुतांशी बरोबर उत्तरांवर थांबू शकत नाही.
महत्त्वाचे म्हणजे, मॉडेल ते वापरत असल्याचा दावा करते तो अचूक आधार परत मिळवू शकते का. हा बेंचमार्क ते दृश्य आणि मोजण्यायोग्य बनवतो. तसेच तो दाखवतो की टॉप-टियरसह सध्याच्या प्रणाली या बाबतीत असमान आहेत.
याचा अर्थ document AI निरुपयोगी आहे, असा नाही. पण deployment निर्णयांमध्ये “चांगले उत्तर देणे” आणि “चांगल्या प्रकारे grounded असणे” यामध्ये फरक केला पाहिजे. CiteVQA त्यांना वेगवेगळ्या क्षमता मानते, आणि निकाल सूचित करतात की दुसरी क्षमता अजून मागे आहे.
enterprise खरेदीदार, नियामक आणि research workflows मध्ये AI एकत्र करणाऱ्या टीम्ससाठी हाच मुख्य takeaway आहे. document intelligence मधील पुढची स्पर्धात्मक सीमा कदाचित अधिक आत्मविश्वासाने लिहिलेलं prose तयार करणे नसेल. ती, अचूकपणे, ते prose योग्य source मधील योग्य line ला anchored आहे हे सिद्ध करणे असू शकते.
हा लेख The Decoder च्या वृत्तांकनावर आधारित आहे. मूळ लेख वाचा.
Originally published on the-decoder.com



