ByteDance अभ्यास: लांब दस्तऐवज AI साठी QA प्रशिक्षण OCR पेक्षा श्रेष्ठ

लांब-संदर्भ मल्टिमोडल AI साठी वेगळी पद्धत

मल्टिमोडल AI प्रणाली अधिकाधिक मोठ्या context window कडे धावत असताना, एक प्रश्न आश्चर्यकारकरित्या अजूनही अस्पष्ट आहे: कोणत्या प्रकारचे प्रशिक्षण प्रत्यक्षात मॉडेलला तो context चांगल्या प्रकारे वापरायला शिकवते? ByteDance Seed आणि Hong Kong University of Science and Technology मधील संशोधकांच्या एका नव्या अभ्यासाचा दावा आहे की एक सर्वसाधारण समज चुकीचा असू शकतो. उद्दिष्ट जर मॉडेलला लांब, प्रतिमांनी भरलेली दस्तऐवज समजायला शिकवणे असेल, तर त्याच्याकडून भरपूर मजकूर ट्रान्सक्राइब करून घेणे हा सर्वोत्तम मार्ग नाही. The Decoder ने वर्णन केलेल्या प्रयोगांमध्ये, ते उलट नुकसानकारकही ठरू शकते.

हा अभ्यास MMProLong नावाच्या मॉडेलवर केंद्रित आहे, जे Alibaba च्या open Qwen2.5-VL पायाभूत मॉडेलवर तयार करण्यात आले आहे. संशोधकांनी सांगितले की, प्रशिक्षणादरम्यान पाहिलेल्यापेक्षा खूपच लांब दस्तऐवज असलेल्या परिस्थितींमध्येही, या प्रणालीने लांब-दस्तऐवज कार्यांमध्ये खूप मोठ्या प्रतिस्पर्ध्यांना मागे टाकले. मुख्य निष्कर्ष केवळ scale बद्दल नाही. तो supervision बद्दल आहे: पानांवरील मजकूर ओळखून त्याची पुनरुत्पत्ती करण्याच्या प्रशिक्षणापेक्षा, संपूर्ण दस्तऐवजाबद्दल प्रश्न विचारल्यावर मॉडेल्सने अधिक शिकले.

OCR-सदृश प्रशिक्षण का कमी पडते

वरवर पाहता, मजकूर ओळखणे हे लांब दस्तऐवजांसाठी नैसर्गिक प्रशिक्षण उद्दिष्ट वाटते. एखादे मॉडेल प्रत्येक पान वाचू शकत असेल, तर सिद्धांततः त्याला दस्तऐवजात काय आहे हे माहीत असायला हवे. पण हा अभ्यास म्हणतो की ओळखणे म्हणजे retrieval किंवा reasoning नव्हे. पृष्ठावरील मजकूर ट्रान्सक्राइब करायला शिकणारे मॉडेल स्थानिक मजकूर extraction मध्ये चांगले होऊ शकते, पण वापरकर्त्याने विशिष्ट प्रश्न विचारल्यावर लांब पानांच्या क्रमात संबंधित माहिती कुठे शोधायची हे शिकत नाही.

संशोधकांनी दोन पद्धती थेट तुलना केल्या. एका सेटअपमध्ये, मॉडेलने सर्व पानांवर किंवा निवडक पानांवर character recognition केली, तर इतर पानं context मध्ये distraction म्हणून राहिली. दुसऱ्यात, स्वतंत्र ByteDance मॉडेल Seed 2.0 वापरून दस्तऐवजाच्या विभागांसाठी प्रश्न-उत्तर जोड्या तयार करण्यात आल्या. मग प्रशिक्षणात प्रश्न संपूर्ण दस्तऐवजासह सादर करण्यात आला, त्यामुळे उत्तर शोधण्यासाठी मॉडेलला लांब context मध्ये शोध घ्यावा लागला.

रिपोर्टनुसार, निकाल स्पष्ट होता. निव्वळ मजकूर-ओळख प्रशिक्षणाने सुरुवातीच्या स्थितीच्या तुलनेत कामगिरी प्रत्यक्षात खराब केली. प्रश्न-उत्तर प्रशिक्षणाने स्पष्ट सुधारणा दिल्या.

फक्त वाचन नव्हे, तर पुनर्प्राप्ती शिकवणे

हा फरक महत्त्वाचा आहे, कारण लांब दस्तऐवज AI मधील प्रत्यक्ष आव्हान क्वचितच फक्त वाचनीयता असते. आधुनिक मॉडेल्सकडे प्रतिमा किंवा रेंडर केलेल्या पानांमधून मजकूर वाचण्याचे विविध मार्ग आधीच आहेत. कठीण समस्या म्हणजे मोठ्या context मध्ये काय महत्त्वाचे आहे ते ठरवणे, ते कार्यक्षमतेने शोधणे, आणि ते वापरकर्त्याच्या विनंतीशी जोडणे.

प्रश्न-उत्तर supervision त्या आव्हानाशी अधिक चांगल्या प्रकारे जुळलेले दिसते. सर्व काही पुनरुत्पादित करण्यासाठी मॉडेलला बक्षीस देण्याऐवजी, ते योग्य गोष्ट शोधण्यासाठी मॉडेलला बक्षीस देते. लांब अहवाल, PDFs, स्लाइड्स, किंवा तांत्रिक मॅन्युअल्समध्ये, याचा अर्थ गोंधळातून मार्ग काढणे, असंबंधित पानांकडे दुर्लक्ष करणे, आणि प्रत्यक्षात prompt चे उत्तर देणारा context चा भाग ओळखणे असा होतो.

मोठा अर्थ असा की लांब-संदर्भ क्षमता ही केवळ hardware किंवा token-budget ची समस्या नाही. ती objective-design चीही समस्या आहे. एक million-token context window आपोआप उपयुक्त ठरत नाही, जर मॉडेलला त्याचा वापर कसा करायचा हे शिकवले नसेल तर.

शिक्षण पाइपलाइन कशी कार्य करते

The Decoder एक synthesis pipeline वर्णन करते जी OCR parsing, automatic question generation, आणि re-embedding एकत्र करून वास्तविक दस्तऐवजांपासून long-context training examples तयार करते. OCR ची भूमिका कायम आहे, पण अंतिम उद्दिष्ट म्हणून नाही. त्याऐवजी, ती source material असे संरचित करण्यात मदत करते की स्वतंत्र प्रणाली दस्तऐवजाच्या विभागांशी संबंधित अर्थपूर्ण प्रश्न-उत्तर जोड्या तयार करू शकेल.

ही पाइपलाइन महत्त्वाची आहे कारण उच्च-गुणवत्तेचे long-document supervision हाताने तयार करणे महाग आहे. प्रश्न-उत्तर डेटाचे उत्पादन स्वयंचलित करून, संशोधक प्रशिक्षण उदाहरणे मोठ्या प्रमाणावर तयार करू शकतात, आणि कार्य end users प्रत्यक्षात मॉडेलकडून काय अपेक्षित करतात त्याच्याशी सुसंगत ठेवू शकतात: लांब input वर आधारित उत्तरे, त्याचा raw transcription नाही.

लहान मॉडेल, मोठा संकेत

अभ्यासातील अधिक परिणामकारक दाव्यांपैकी एक म्हणजे 7 अब्ज पॅरामीटर्सचे मॉडेल या प्रकारच्या कामात खूप मोठ्या प्रतिस्पर्ध्यांना मागे टाकू शकते. जर हा परिणाम व्यापकपणे लागू झाला, तर काही multimodal workloads साठी प्रशिक्षण डिझाइन brute-force scaling इतकेच किंवा त्याहून अधिक महत्त्वाचे ठरू शकते असे सूचित होते.

AI उद्योगभर हे धोरणात्मकदृष्ट्या महत्त्वाचे आहे. OpenAI, Google, आणि Alibaba यांसारखी प्रयोगशाळा खूप मोठी context window पुढे रेटत आहेत, पण सार्वजनिक तांत्रिक अहवाल long-context training data च्या रचनेबद्दल फारसे सांगत नाहीत. ByteDance चा अभ्यास या कल्पनेवर दबाव आणतो की context-window size ही क्षमता मोजण्याची उपयोगी proxy आहे. एक मॉडेल प्रचंड input स्वीकारू शकते, तरीही training objective ने चुकीच्या कौशल्यांवर भर दिला असल्यास ते त्यांचा चांगला उपयोग करू शकणार नाही.

एंटरप्राइझ AI साठी हे का महत्त्वाचे आहे

Long-document understanding ही काही अकादमिक अपवादात्मक बाब नाही. संस्था अशा मॉडेल्सची अपेक्षा करतात जी contracts, slide decks, reports, knowledge bases, technical manuals, आणि research archives मध्ये काम करू शकतील. अनेक प्रकरणांमध्ये, प्रत्येक अक्षर काढण्यापेक्षा विशिष्ट प्रश्नाचे अचूक उत्तर देणे आणि योग्य section दाखवणे अधिक मौल्यवान असते.

जर OCR-heavy supervision मुळे long-context performance कमी होत असेल, तर व्यवसायासाठी multimodal systems fine-tune करण्याबाबत product teams ना नव्याने विचार करावा लागू शकतो. या निष्कर्षांमधून असेही सूचित होते की benchmarks ने reading ability आणि document reasoning ability यांना अधिक काळजीपूर्वक वेगळे केले पाहिजे. page-level recognition मध्ये मजबूत दिसणारे मॉडेलही, माहिती डझनभर किंवा शेकडो पानांमध्ये विखुरलेली असेल तर अपयशी ठरू शकते.

Context बद्दल अधिक परिपक्व दृष्टी

हा अभ्यास AI capability कशी चर्चिली जाते यामध्ये होत असलेल्या बदलात भर घालतो. मोठे context window अजूनही महत्त्वाचे आहेत, पण चर्चा capacity वरून utilization कडे वळत आहे. खरे महत्त्व मॉडेल किती धरू शकते याला नाही, तर त्या जागेत ते किती प्रभावीपणे शोधू, प्राधान्य देऊ, आणि reasoning करू शकते याला आहे.

प्रश्न-उत्तर प्रशिक्षण transcription-heavy पद्धतींचे परिणाम मागे टाकू शकते आणि अगदी उलटही करू शकते हे दाखवून, संशोधकांनी multimodal AI निर्मात्यांसाठी एक ठोस design principle दिला आहे. Long-context intelligence ही सगळे काही कॉपी करून शिकत नाही. काय महत्त्वाचे आहे ते शोधण्याचा सराव वारंवार करून ती शिकली जाते.

मागे वळून पाहिले तर ते उघड वाटू शकते. Model training मध्ये, उघड वाटणाऱ्या कल्पना अनेकदा तेव्हाच येतात जेव्हा जुनी सवय चुकीची होती हे सांगणारे बरेच खर्चिक पुरावे समोर येतात.

हा लेख The Decoder च्या अहवालावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com