ByteDance ஆய்வு: நீளமான ஆவண AI-க்கு QA பயிற்சி OCR-ஐ மிஞ்சுகிறது

நீண்ட-சூழல் பல்முக AI-க்கு வேறுபட்ட வழிமுறை

பல்முக AI அமைப்புகள் தொடர்ந்து பெரிய context window-களுக்காக வேகமாக நகரும் நிலையில், ஒரு கேள்வி விசித்திரமாக தெளிவற்றதாகவே உள்ளது: அந்த context-ஐ நன்றாகப் பயன்படுத்த ஒரு மாதிரியை உண்மையில் எந்த வகையான பயிற்சி கற்றுக்கொடுக்கிறது? ByteDance Seed மற்றும் Hong Kong University of Science and Technology-இல் உள்ள ஆராய்ச்சியாளர்கள் வெளியிட்ட புதிய ஆய்வு, ஒரு பொதுவான முன்கூட்டிய கருத்து தவறாக இருக்கலாம் என்று வாதிடுகிறது. இலக்கு ஒரு மாதிரி நீளமான, படங்கள் அதிகமுள்ள ஆவணங்களைப் புரிந்துகொள்வதாக இருந்தால், அதை நிறைய உரையை எழுத்துப்பதிவாக்கச் செய்வது சிறந்த வழி அல்ல. The Decoder விவரித்த பரிசோதனைகளில், அது எதிர்விளைவையும் தரக்கூடும்.

இந்த ஆய்வு MMProLong எனப்படும் ஒரு மாதிரியை மையமாகக் கொண்டது; இது Alibaba-வின் திறந்த Qwen2.5-VL அடித்தளத்தின் மீது உருவாக்கப்பட்டது. பயிற்சியின் போது பார்த்ததைவிட கணிசமாக நீளமான ஆவணங்கள் இருந்த நிலைகளையும் உள்ளடக்கி, நீளமான ஆவணப் பணிகளில் இந்த அமைப்பு மிகவும் பெரிய போட்டியாளர்களை மிஞ்சியதாக ஆராய்ச்சியாளர்கள் தெரிவிக்கின்றனர். முக்கிய கண்டுபிடிப்பு அளவை மட்டும் பற்றியது அல்ல. அது supervision பற்றியது: பக்கங்களில் உள்ள உரையை அடையாளம் கண்டு மீண்டும் உருவாக்கக் கற்றுக்கொள்வதைவிட, ஒரு முழு ஆவணத்தைப் பற்றி கேள்விகளுக்குப் பதிலளிக்கச் சொல்வதன் மூலம் மாதிரிகள் அதிகம் கற்றுக்கொண்டன.

OCR போன்ற பயிற்சி ஏன் குறைவாகப் பலிக்கிறது

மேலோட்டமாகப் பார்க்கும்போது, உரை அடையாளம் காண்தல் நீளமான ஆவணங்களுக்கு இயல்பான பயிற்சி இலக்கு போல் தெரிகிறது. ஒரு மாதிரி ஒவ்வொரு பக்கத்தையும் படிக்க முடிந்தால், கோட்பாட்டில் அதற்கு ஆவணத்தில் என்ன உள்ளது என்பது தெரிந்திருக்க வேண்டும். ஆனால் அடையாளம் காண்தல் என்பது retrieval அல்லது reasoning-க்கு சமமானது அல்ல என்று ஆய்வு வாதிடுகிறது. பக்க உள்ளடக்கத்தை எழுத்துப்பதிவாக்கக் கற்றுக்கொள்ளும் ஒரு மாதிரி, உள்ளூர் உரை பிரித்தெடுத்தலில் மேம்படலாம்; ஆனால் பயனர் ஒரு குறிப்பிட்ட கேள்வி கேட்டால், நீண்ட பக்க வரிசையில் தொடர்புடைய தகவலை கண்டுபிடிக்கும் முறையை அது கற்றுக்கொள்ளாது.

ஆராய்ச்சியாளர்கள் இரண்டு அணுகுமுறைகளை நேரடியாக ஒப்பிட்டனர். ஒரு அமைப்பில், மாதிரி அனைத்து பக்கங்களிலும் அல்லது தேர்ந்தெடுக்கப்பட்ட பக்கங்களில் எழுத்து அடையாளம் கண்டது; மற்ற பக்கங்கள் கவனச்சிதறல்களாக context-இல் இருந்தன. மற்றொரு அமைப்பில், தனியான ByteDance மாதிரியான Seed 2.0, ஆவணப் பகுதிகளுக்கான கேள்வி-பதில் ஜோடிகளை உருவாக்க பயன்படுத்தப்பட்டது. பின்னர் பயிற்சி, கேள்வியை முழு ஆவணத்துடன் சேர்த்து வழங்கியது; இதனால் பதிலைத் தேட மாதிரி நீளமான context-ஐ ஆராய வேண்டியதாக இருந்தது.

அறிக்கையின்படி, முடிவு தெளிவாக இருந்தது. தூய உரை-அடையாளப் பயிற்சி, தொடக்க நிலையை விட செயல்திறனை உண்மையில் மோசமாக்கியது. கேள்வி-பதில் பயிற்சி தெளிவான முன்னேற்றத்தை வழங்கியது.

வாசிப்பை மட்டும் அல்ல, தேடுதலையும் கற்பித்தல்

இந்த வேறுபாடு முக்கியமானது; ஏனெனில் நீளமான ஆவண AI-இல் நடைமுறைச் சவால் அரிதாகவே எளிய வாசிப்புத் திறன் மட்டும் ஆகும். நவீன மாதிரிகளிடம் படங்கள் அல்லது render செய்யப்பட்ட பக்கங்களில் இருந்து உரையை வாசிக்கும் பல வழிகள் ஏற்கனவே உள்ளன. கடினமான பிரச்சினை என்ன முக்கியம் என்பதை பெரிய context-இல் தீர்மானிப்பதும், அதை திறம்படக் கண்டுபிடிப்பதும், பயனரின் கோரிக்கையுடன் இணைப்பதும்தான்.

கேள்வி-பதில் supervision அந்த சவாலுடன் சிறப்பாக ஒத்துப்போகிறது. அனைத்தையும் மீண்டும் உருவாக்குவதற்காக ஒரு மாதிரியை வெகுமதி அளிப்பதற்கு பதிலாக, சரியான விஷயத்தை கண்டுபிடிப்பதற்காக அதை ஊக்குவிக்கிறது. நீளமான அறிக்கைகள், PDFs, ஸ்லைடுகள், அல்லது தொழில்நுட்ப கையேடுகளில், அது சத்தத்தை வழித்தடம் கண்டறிதல், தொடர்பற்ற பக்கங்களை புறக்கணித்தல், மற்றும் prompt-க்கு உண்மையில் பதிலளிக்கும் context பகுதியை அடையாளம் காண்தல் என்பதாகிறது.

பரந்த தாக்கம் என்னவெனில், நீண்ட-சூழல் திறன் என்பது வெறும் hardware அல்லது token budget பிரச்சினை அல்ல. அது objective வடிவமைப்பு பிரச்சினையும் கூட. ஒரு million-token context window இருந்தாலே அது பயனுள்ளதாக இருக்காது; அதை எவ்வாறு பயன்படுத்த வேண்டும் என்று மாதிரிக்கு கற்றுக் கொடுக்கப்படாவிட்டால்.

பயிற்சி pipeline எப்படி செயல்படுகிறது

The Decoder உண்மையான ஆவணங்களிலிருந்து long-context training example-களை உருவாக்க OCR parsing, automatic question generation, மற்றும் re-embedding ஆகியவற்றை இணைக்கும் ஒரு synthesis pipeline-ஐ விவரிக்கிறது. OCR இன்னும் ஒரு பங்கு வகிக்கிறது, ஆனால் இறுதி இலக்காக அல்ல. மாறாக, ஆவணத்தின் பகுதிகளுடன் இணைந்த பொருத்தமான கேள்வி-பதில் ஜோடிகளை வேறு ஒரு அமைப்பு உருவாக்கச் source material-ஐ அமைப்பதில் அது உதவுகிறது.

அந்த pipeline முக்கியமானது; காரணம், உயர் தரமான long-document supervision-ஐ கைமுறையாக உருவாக்குவது செலவானது. கேள்வி-பதில் தரவை உருவாக்குவதை தானியக்கப்படுத்துவதன் மூலம், ஆராய்ச்சியாளர்கள் training example-களை scale செய்ய முடியும்; அதே நேரத்தில், இறுதி பயனர்கள் மாதிரியிடமிருந்து உண்மையில் விரும்புவது என்ன என்பதுடன் பணியை பொருந்தவைத்து வைத்திருக்க முடியும்: நீளமான input-இல் அடிப்படையுடைய பதில்கள், அதன் raw transcription அல்ல.

சிறிய மாதிரி, பெரிய signal

ஆய்வின் மிகவும் முக்கியமான கூற்றுகளில் ஒன்று, 7 பில்லியன் அளவுருக்கள் கொண்ட ஒரு மாதிரி இந்த வகை பணிகளில் மிகப்பெரிய போட்டியாளர்களை மிஞ்ச முடியும் என்பதாகும். அந்த முடிவு பரவலாக பொருந்தினால், சில multimodal வேலைச்சுமைகளில் training design என்பது brute-force scaling-க்கு சமமாக அல்லது அதைவிட முக்கியமானதாக இருக்கலாம் என்பதைக் காட்டுகிறது.

இது AI தொழில்துறையில் மூலோபாய ரீதியாக முக்கியமானது. OpenAI, Google, மற்றும் Alibaba உள்ளிட்ட ஆய்வகங்கள் மிகப் பெரிய context window-களை முன்னிறுத்துகின்றன; ஆனால் பொதுத் தொழில்நுட்ப அறிக்கைகள் பெரும்பாலும் long-context training data-வின் அமைப்பைப் பற்றி அதிகமாகக் கூறுவதில்லை. ByteDance-ன் ஆய்வு, context-window size மட்டும் திறனுக்கான பயனுள்ள proxy என்ற கருத்துக்கு அழுத்தம் கொடுக்கிறது. ஒரு மாதிரி பெரும் input-களை ஏற்றுக்கொள்ளலாம்; ஆனால் அதன் training objective தவறான திறன்களுக்கு முக்கியத்துவம் கொடுத்திருந்தால், அவற்றை நன்றாகப் பயன்படுத்தத் தவறலாம்.

Enterprise AI-க்கு இது ஏன் முக்கியம்

Long-document understanding என்பது கல்விசார் விளிம்பு வழக்கு அல்ல. ஒப்பந்தங்கள், slide deck-கள், அறிக்கைகள், knowledge base-கள், தொழில்நுட்ப கையேடுகள், மற்றும் ஆராய்ச்சி காப்பகங்கள் முழுவதும் இயங்கக் கூடிய மாதிரிகளை நிறுவனங்கள் விரும்புகின்றன. அவற்றில் பல சூழல்களில், ஒவ்வொரு எழுத்தையும் பிரித்தெடுப்பதைவிட, ஒரு குறிப்பிட்ட கேள்விக்கு துல்லியமாகப் பதிலளித்து சரியான பகுதியை மேற்கோள் காட்டுவது அதிக மதிப்புடையது.

OCR-heavy supervision long-context performance-ஐக் குறைத்தால், வணிகப் பயன்பாட்டிற்கு multimodal systems-ஐ fine-tune செய்வது எப்படி என்பதை product team-கள் மறுபரிசீலனை செய்ய வேண்டியிருக்கும். இந்தக் கண்டுபிடிப்புகள், benchmarks reading ability-யையும் document reasoning ability-யையும் மேலும் கவனமாகப் பிரிக்க வேண்டும் என்பதையும் சுட்டிக்காட்டுகின்றன. பக்கம்-நிலை அடையாளத்தில் வலுவாகத் தோன்றும் ஒரு மாதிரி, தகவல் பத்துகளிலோ நூற்றுக்கணக்கான பக்கங்களிலோ சிதறிக் கிடக்கும்போது தோல்வியடையலாம்.

சூழலைப் பற்றிய முதிர்ந்த பார்வை

இந்த ஆய்வு, AI திறன் எவ்வாறு விவாதிக்கப்படுகிறது என்பதில் உருவாகி வரும் மாற்றத்திற்கு பங்களிக்கிறது. பெரிய context window-கள் இன்னும் முக்கியமானவை; ஆனால் உரையாடல் capacity-யிலிருந்து utilization-க்கு மாறுகிறது. முக்கியமானது, ஒரு மாதிரி எவ்வளவு அதிகத்தை தாங்க முடியும் என்பதல்ல; அந்த வெளிக்குள் அது எவ்வளவு திறமையாக தேட, முன்னுரிமை நிர்ணயிக்க, மற்றும் reason செய்ய முடிகிறது என்பதே.

கேள்வி-பதில் பயிற்சி transcription-heavy அணுகுமுறைகளின் விளைவுகளை மிஞ்சி, hatta திருப்பி மாற்றவும் முடியும் என்பதை காட்டுவதன் மூலம், ஆராய்ச்சியாளர்கள் multimodal AI உருவாக்குநர்களுக்கு ஒரு தெளிவான design principle-ஐ வழங்குகிறார்கள். Long-context intelligence என்பது அனைத்தையும் நகலெடுப்பதன் மூலம் கற்றுக்கொள்ளப்படுவதில்லை. என்ன முக்கியம் என்பதைக் கண்டுபிடிப்பதை மீண்டும் மீண்டும் பயிற்சி செய்வதன் மூலம் அது கற்றுக்கொள்ளப்படுகிறது.

பின்பார்வையில் அது வெளிப்படையாகத் தோன்றலாம். Model training-இல், வெளிப்படையாகத் தோன்றும் யோசனைகள் பெரும்பாலும், பழைய பழக்கம் தவறானது என்பதை காட்டும் நிறைய விலையுயர்ந்த ஆதாரங்களுக்குப் பிறகே வருகின்றன.

இந்தக் கட்டுரை The Decoder-ன் செய்திப்பதிவை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

ByteDance ஆய்வில், நீளமான ஆவண AI, உரையை எழுத்துப்பதிவாக்குவதைவிட கேள்விகளிலிருந்து சிறப்பாகக் கற்றுக்கொள்கிறது