सिर्फ उत्तर सही होना अब काफी नहीं है

कृत्रिम बुद्धिमत्ता में बढ़ता हुआ शोध यह सवाल पूछने से आगे बढ़ रहा है कि कोई मॉडल प्रश्न का उत्तर दे सकता है या नहीं, और इस ओर ध्यान दे रहा है कि क्या वह यह साबित कर सकता है कि उत्तर आया कहां से। The Decoder द्वारा उजागर नया शोध बताता है कि कई प्रमुख सिस्टम अब भी उस दूसरे हिस्से में संघर्ष करते हैं।

पेकिंग विश्वविद्यालय और शंघाई आर्टिफिशियल इंटेलिजेंस लेबोरेटरी के शोधकर्ताओं ने दस्तावेज़-आधारित प्रश्नोत्तर में उत्तर की सटीकता और स्रोत-एट्रिब्यूशन, दोनों को मापने के लिए CiteVQA नाम का एक बेंचमार्क बनाया। उनका निष्कर्ष उन लोगों के लिए असहज है जो उच्च-जोखिम वाली स्थितियों में AI पर भरोसा करना चाहते हैं: एक मॉडल सही उत्तर दे सकता है और फिर भी गलत साक्ष्य की ओर इशारा कर सकता है।

टीम इस विफलता-रूप को “attribution hallucination” कहती है। व्यवहार में इसका मतलब है कि AI सिस्टम भरोसेमंद लग सकता है क्योंकि उसका अंतिम उत्तर सही है, जबकि समर्थन में दिया गया उद्धरण वास्तव में उस उत्तर को सिद्ध नहीं करता।

साइटेशन की गुणवत्ता क्यों महत्वपूर्ण है

DocVQA और MMLongBench-Doc जैसे मानक दस्तावेज़-विश्लेषण बेंचमार्क आम तौर पर अंतिम उत्तर का मूल्यांकन करते हैं। इससे एक बड़ा अंधा-क्षेत्र रह जाता है। हो सकता है मॉडल ने स्रोत सामग्री से तर्क किया हो, लेकिन उसने पहले से मौजूद ज्ञान, पैटर्न-मिलान या प्रॉम्प्ट के आंशिक संकेतों के आधार पर अनुमान भी लगाया हो।

कई उपभोक्ता उपयोगों में यह अंतर अनदेखा रह सकता है। कानून, चिकित्सा, वित्त और ऑडिटिंग में ऐसा नहीं हो सकता। शोधपत्र का तर्क है कि traceability ही वह चीज़ है जो AI आउटपुट को शुरू से उपयोगी बनाती है। यदि सिस्टम भरोसेमंद ढंग से वह पैराग्राफ, तालिका या आकृति नहीं पहचान सकता जो उसके उत्तर का समर्थन करती है, तो एक सुंदर उत्तर भी संचालन की दृष्टि से असुरक्षित हो सकता है।

CiteVQA इसी अंतर को सीधे उजागर करने के लिए बनाया गया है। सिर्फ पेज नंबर काफी नहीं है। मॉडलों को दस्तावेज़ के भीतर सटीक स्रोत स्थान पहचानने होते हैं, और वह भी विशिष्ट सहायक तत्व तक।

सामान्य दस्तावेज़ QA से कठिन परीक्षण

इस बेंचमार्क में सात विषय क्षेत्रों के 711 PDF पर 1,897 प्रश्न शामिल हैं, जिनमें 451 दस्तावेज़ अंग्रेज़ी में और 260 चीनी में हैं। औसत दस्तावेज़ लंबाई 40.6 पेज है, जिससे यह कई मौजूदा दस्तावेज़ बेंचमार्क की तुलना में काफी लंबा है।

पूरी तरह मैनुअल लेबलिंग पर निर्भर रहने के बजाय, शोधकर्ताओं ने एक स्वचालित पाइपलाइन बनाई। दस्तावेज़ों को अलग-अलग तत्वों में तोड़ा गया, फिर मॉडल साक्ष्य की शृंखलाएँ ट्रेस करते हैं। सिस्टम यह जांचता है कि क्या हर उद्धृत घटक वास्तव में आवश्यक है, इसके लिए दस्तावेज़ों को एक-एक करके हटाकर देखा जाता है कि क्या मॉडल फिर भी उत्तर दे सकता है। यदि नहीं, तो उस साक्ष्य को अनिवार्य माना जाता है।

मुख्य मीट्रिक Strict Attributed Accuracy है। इस स्कोरिंग में मॉडल को तभी अंक मिलते हैं जब दोनों हिस्से सफल हों: उत्तर सही हो और उद्धरण सही सहायक सामग्री पर पहुंचे। सही उत्तर के साथ गलत उद्धरण को शून्य मिलता है।

शीर्ष मॉडल अब भी काफी पीछे हैं

बीस मौजूदा मॉडलों का मूल्यांकन किया गया। सबसे अच्छा प्रदर्शन करने वाला सिस्टम, Gemini-3.1-Pro-Preview, कठोर मीट्रिक पर 100 में से 76 पर पहुंचा। यह मजबूत प्रदर्शन है, लेकिन फिर भी सर्वश्रेष्ठ उपलब्ध परिणाम और लगभग पूर्ण, भरोसेमंद attribution के बीच एक बड़ा अंतर छोड़ता है।

बेंचमार्क ने उत्तर की गुणवत्ता और साक्ष्य की गुणवत्ता के बीच एक महत्वपूर्ण अंतर भी दिखाया। GPT-5.4 ने raw answer performance पर कथित तौर पर 87.1 स्कोर किया, लेकिन सही citation की आवश्यकता होने पर यह 59 पर गिर गया। दूसरे शब्दों में, मॉडल अक्सर जानता था क्या कहना है, लेकिन यह लगातार नहीं दिखा पाता था कि दस्तावेज़ में उत्तर कहां से आया।

रिपोर्टेड परिणामों में open-source सिस्टम बहुत खराब रहे। तुलना में सबसे मजबूत मुक्त मॉडल बताए गए Qwen3-VL-235B-A22B ने 22.5 हासिल किया। छोटे open मॉडल अधिकतर 10 से नीचे रहे। शोधकर्ताओं का कहना है कि इस स्तर का प्रदर्शन विनियमित उद्योगों के लिए बेहद जोखिमभरा है।

सही पेज ढूँढना अब भी बड़ी चुनौती है

बेंचमार्क का एक सबसे स्पष्ट संदेश यह है कि कई मॉडल ग्रेन्युलर citation task शुरू होने से पहले ही संघर्ष करते हैं। वे अक्सर सही पेज पहचानने में विफल रहते हैं, जिससे सटीक पैराग्राफ- या फ़िगर-स्तर attribution और भी कठिन हो जाता है।

यह इसलिए महत्वपूर्ण है क्योंकि उपयोगकर्ता अक्सर citations को एक अंतर्निहित सुरक्षा सुविधा मान लेते हैं। वास्तविकता में, citation format एक कमजोर retrieval step को छिपा सकता है। कोई सिस्टम यदि उत्तर के साथ साक्ष्य-जैसे संदर्भ जोड़ दे, तो वह बिना संदर्भ वाले सिस्टम की तुलना में अधिक विश्वसनीय लग सकता है, भले ही साक्ष्य गलत हो।

CiteVQA सुझाव देता है कि उद्योग को source-linked output को स्वाभाविक रूप से भरोसेमंद मानने में अधिक सावधान होना चाहिए। Attribution को मापा जाना चाहिए, माना नहीं जाना चाहिए।

व्यावहारिक विश्वसनीयता पर केंद्रित बेंचमार्क

अध्ययन का महत्व किसी एक मॉडल को विजेता घोषित करने से कम और लक्ष्य को फिर से परिभाषित करने से अधिक है। यदि AI का उपयोग पेशेवर पठन, compliance review, due diligence या साक्ष्य-आधारित सहायता के लिए होना है, तो मानक fluency भरे सारांश और लगभग सही उत्तरों पर नहीं रुक सकता।

महत्वपूर्ण यह है कि क्या मॉडल वह सटीक समर्थन प्राप्त कर सकता है जिसे वह इस्तेमाल करने का दावा करता है। यह बेंचमार्क उस बात को दृश्य और मापनीय बनाता है। यह यह भी दिखाता है कि शीर्ष-स्तरीय प्रणालियां समेत मौजूदा सिस्टम इस मोर्चे पर असमान हैं।

इसका मतलब यह नहीं कि document AI उपयोगी नहीं है। इसका मतलब है कि deployment निर्णयों में “अच्छा उत्तर देना” और “अच्छी तरह grounded होना” अलग-अलग बातें मानी जानी चाहिए। CiteVQA इन्हें अलग क्षमताएँ मानता है, और नतीजे बताते हैं कि दूसरी अभी भी पीछे है।

एंटरप्राइज़ खरीदारों, नियामकों और शोध workflows में AI जोड़ने वाली टीमों के लिए यही मुख्य निष्कर्ष है। दस्तावेज़ इंटेलिजेंस में अगली प्रतिस्पर्धी सीमा शायद अधिक आत्मविश्वास भरी prose नहीं होगी। यह यह साबित करना हो सकता है, सटीकता के साथ, कि prose सही source की सही line से जुड़ी है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com