लंबे-संदर्भ बहु-मोडल AI के लिए एक अलग तरीका
जैसे-जैसे बहु-मोडल AI सिस्टम लगातार बड़े संदर्भ विंडो की ओर बढ़ रहे हैं, एक सवाल अब भी अजीब तरह से अस्पष्ट बना हुआ है: ऐसा कौन-सा प्रशिक्षण वास्तव में मॉडल को उस संदर्भ का सही इस्तेमाल करना सिखाता है? ByteDance Seed और Hong Kong University of Science and Technology के शोधकर्ताओं के एक नए अध्ययन का तर्क है कि एक सामान्य धारणा गलत हो सकती है। यदि लक्ष्य किसी मॉडल को लंबे, छवि-समृद्ध दस्तावेज़ों को समझना सिखाना है, तो उसे बहुत सारा पाठ ट्रांसक्राइब कराना सबसे अच्छा तरीका नहीं है। The Decoder द्वारा वर्णित प्रयोगों में तो यह उल्टा भी पड़ सकता है।
यह अध्ययन MMProLong नाम के एक मॉडल पर केंद्रित है, जिसे Alibaba के ओपन Qwen2.5-VL आधार पर बनाया गया है। शोधकर्ताओं का कहना है कि इस सिस्टम ने लंबे-दस्तावेज़ कार्यों में अपने कहीं बड़े प्रतिस्पर्धियों को पछाड़ दिया, जिनमें वे मामले भी शामिल थे जहाँ दस्तावेज़ प्रशिक्षण के दौरान देखे गए दस्तावेज़ों से काफी लंबे थे। मुख्य निष्कर्ष सिर्फ पैमाने के बारे में नहीं है। यह सुपरविजन के बारे में है: मॉडल ने पृष्ठों पर मौजूद पाठ को पहचानने और दोहराने के लिए प्रशिक्षित होने की तुलना में पूरे दस्तावेज़ पर प्रश्न पूछे जाने से अधिक सीखा।
OCR-जैसा प्रशिक्षण क्यों कमज़ोर पड़ता है
पहली नज़र में, लंबे दस्तावेज़ों के लिए पाठ-मान्यता एक स्वाभाविक प्रशिक्षण उद्देश्य लगती है। अगर कोई मॉडल हर पृष्ठ पढ़ सकता है, तो सैद्धांतिक रूप से उसे यह पता होना चाहिए कि दस्तावेज़ में क्या है। लेकिन अध्ययन का तर्क है कि मान्यता, retrieval या reasoning के बराबर नहीं है। जो मॉडल पृष्ठ-सामग्री को ट्रांसक्राइब करना सीखता है, वह स्थानीय पाठ-निष्कर्षण में बेहतर हो सकता है, लेकिन जब उपयोगकर्ता कोई लक्षित प्रश्न पूछता है, तो लंबे पृष्ठ-क्रम में प्रासंगिक जानकारी खोजने का तरीका नहीं सीखता।
शोधकर्ताओं ने दो तरीकों की सीधे तुलना की। एक सेटअप में, मॉडल ने या तो सभी पृष्ठों पर या चुने गए पृष्ठों पर character recognition किया, जबकि अन्य पृष्ठ ध्यान भटकाने वाले संदर्भ के रूप में मौजूद रहे। दूसरे में, दस्तावेज़ खंडों के लिए प्रश्न-उत्तर जोड़े बनाने के लिए एक अलग ByteDance मॉडल, Seed 2.0, का उपयोग किया गया। फिर प्रशिक्षण में प्रश्न को पूरे दस्तावेज़ के साथ प्रस्तुत किया गया, जिससे मॉडल को उत्तर खोजने के लिए लंबे संदर्भ में तलाश करनी पड़ी।
रिपोर्ट के अनुसार, परिणाम काफी स्पष्ट था। केवल पाठ-मान्यता प्रशिक्षण ने शुरुआती स्थिति की तुलना में प्रदर्शन को वास्तव में खराब किया। प्रश्न-उत्तर प्रशिक्षण ने स्पष्ट लाभ दिए।
सिर्फ पढ़ना नहीं, retrieval सिखाना
यह अंतर इसलिए महत्वपूर्ण है क्योंकि लंबे-दस्तावेज़ AI में व्यावहारिक चुनौती शायद ही कभी केवल पठनीयता की होती है। आधुनिक मॉडलों के पास पहले से ही छवियों या रेंडर किए गए पृष्ठों से पाठ पढ़ने के कई तरीके हैं। कठिन समस्या यह तय करना है कि बड़े संदर्भ में क्या महत्वपूर्ण है, उसे कुशलता से खोजना, और उसे उपयोगकर्ता के अनुरोध से जोड़ना।
प्रश्न-उत्तर सुपरविजन इस चुनौती के साथ बेहतर मेल खाता दिखता है। मॉडल को सब कुछ दोहराने के लिए पुरस्कृत करने के बजाय, यह उसे सही चीज़ खोजने के लिए पुरस्कृत करता है। लंबे रिपोर्टों, PDF, स्लाइड्स, या तकनीकी मैनुअलों में इसका मतलब है शोर के बीच रास्ता बनाना, अप्रासंगिक पृष्ठों को अनदेखा करना, और संदर्भ के उस हिस्से की पहचान करना जो वास्तव में किसी प्रॉम्प्ट का उत्तर देता है।
व्यापक निष्कर्ष यह है कि लंबे-संदर्भ की क्षमता सिर्फ हार्डवेयर या टोकन-बजट का मुद्दा नहीं है। यह एक objective-design समस्या भी है। यदि किसी मॉडल को यह नहीं सिखाया गया कि उस स्थान का इस्तेमाल कैसे करना है, तो दस लाख-टोकन की संदर्भ विंडो अपने आप उपयोगी नहीं हो जाती।
प्रशिक्षण पाइपलाइन कैसे काम करती है
The Decoder एक synthesis pipeline का वर्णन करता है जो वास्तविक दस्तावेज़ों से लंबे-संदर्भ प्रशिक्षण उदाहरण बनाने के लिए OCR parsing, automatic question generation, और re-embedding को जोड़ती है। OCR की भूमिका अभी भी रहती है, लेकिन अंतिम लक्ष्य के रूप में नहीं। इसके बजाय, यह स्रोत सामग्री को इस तरह संरचित करने में मदद करता है कि एक अलग सिस्टम दस्तावेज़ के खंडों से जुड़े अर्थपूर्ण प्रश्न-उत्तर जोड़े उत्पन्न कर सके।
यह पाइपलाइन महत्वपूर्ण है क्योंकि उच्च-गुणवत्ता वाला लंबे-दस्तावेज़ सुपरविजन हाथ से बनाना महंगा होता है। प्रश्न-उत्तर डेटा के उत्पादन को स्वचालित करके, शोधकर्ता प्रशिक्षण उदाहरणों को बड़े पैमाने पर बढ़ा सकते हैं, जबकि कार्य को इस बात के साथ संरेखित रख सकते हैं कि अंतिम उपयोगकर्ता वास्तव में मॉडल से क्या चाहते हैं: लंबे इनपुट पर आधारित उत्तर, उसका कच्चा ट्रांसक्रिप्शन नहीं।
एक छोटा मॉडल, बड़ा संकेत
अध्ययन के अधिक महत्वपूर्ण दावों में से एक यह है कि 7-बिलियन-पैरामीटर वाला मॉडल इस श्रेणी के कार्य में कहीं बड़े प्रतिद्वंद्वियों से बेहतर प्रदर्शन कर सकता है। यदि यह परिणाम व्यापक रूप से लागू होता है, तो यह संकेत देता है कि कुछ बहु-मोडल वर्कलोड्स के लिए प्रशिक्षण-डिज़ाइन, महज़ brute-force scaling की तुलना में बराबर या उससे भी अधिक महत्वपूर्ण हो सकता है।
यह AI उद्योग में रणनीतिक रूप से महत्वपूर्ण है। OpenAI, Google, और Alibaba सहित प्रयोगशालाएँ बहुत बड़े संदर्भ विंडो को बढ़ावा देती हैं, लेकिन सार्वजनिक तकनीकी रिपोर्टें अक्सर लंबे-संदर्भ प्रशिक्षण डेटा की संरचना के बारे में कम जानकारी देती हैं। ByteDance का अध्ययन इस विचार पर दबाव डालता है कि अकेले संदर्भ-विंडो का आकार क्षमता का उपयोगी संकेतक है। कोई मॉडल बड़े इनपुट स्वीकार कर सकता है और फिर भी उनका ठीक से उपयोग करने में असफल हो सकता है, यदि उसके प्रशिक्षण उद्देश्य ने गलत कौशलों पर ज़ोर दिया हो।
एंटरप्राइज़ AI के लिए यह क्यों मायने रखता है
लंबे-दस्तावेज़ों की समझ कोई अकादमिक किनारी मामला नहीं है। एंटरप्राइज़ चाहते हैं कि मॉडल अनुबंधों, स्लाइड डेक, रिपोर्टों, नॉलेज बेस, तकनीकी मैनुअलों, और शोध अभिलेखों में काम कर सकें। इनमें से कई मामलों में हर अक्षर निकालना, किसी विशिष्ट प्रश्न का सटीक उत्तर देने और सही खंड का हवाला देने की तुलना में कम मूल्यवान है।
यदि OCR-प्रधान सुपरविजन लंबे-संदर्भ प्रदर्शन को खराब करता है, तो उत्पाद टीमों को यह फिर से सोचना पड़ सकता है कि वे व्यावसायिक उपयोग के लिए बहु-मोडल सिस्टम को कैसे fine-tune करते हैं। निष्कर्ष यह भी संकेत देते हैं कि benchmarks को reading ability और document reasoning ability को अधिक सावधानी से अलग करना चाहिए। कोई मॉडल पृष्ठ-स्तरीय पहचान में मजबूत दिख सकता है, फिर भी तब विफल हो सकता है जब जानकारी दर्जनों या सैकड़ों पृष्ठों में बिखरी हो।
संदर्भ का अधिक परिपक्व दृष्टिकोण
यह अध्ययन इस बात में बढ़ते बदलाव में योगदान देता है कि AI क्षमता पर कैसे चर्चा की जाती है। बड़े संदर्भ विंडो महत्वपूर्ण बने हुए हैं, लेकिन बातचीत क्षमता से उपयोगिता की ओर बढ़ रही है। महत्वपूर्ण यह नहीं है कि मॉडल कितना कुछ रख सकता है, बल्कि यह है कि वह उस जगह के भीतर कितनी प्रभावी ढंग से खोज, प्राथमिकता, और reasoning कर सकता है।
यह दिखाकर कि प्रश्न-उत्तर प्रशिक्षण ट्रांसक्रिप्शन-प्रधान तरीकों के प्रभावों से बेहतर प्रदर्शन कर सकता है और उन्हें उलट भी सकता है, शोधकर्ता बहु-मोडल AI निर्माताओं के लिए एक ठोस design principle देते हैं। लंबे-संदर्भ की बुद्धिमत्ता हर दिखाई देने वाली चीज़ की नकल करके नहीं सीखी जाती। यह बार-बार इस अभ्यास से सीखी जाती है कि क्या महत्वपूर्ण है, उसे कैसे खोजा जाए।
पीछे मुड़कर देखने पर यह बात स्पष्ट लग सकती है। मॉडल प्रशिक्षण में, स्पष्ट लगने वाले विचार अक्सर तभी सामने आते हैं जब बहुत सारे महंगे प्रमाण यह बता देते हैं कि पुरानी आदत गलत थी।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com



