ByteDance అధ్యయనం: పొడవైన డాక్యుమెంట్ AIకి QA శిక్షణ OCR కంటే మెరుగ్ది

దీర్ఘ-సందర్భ మల్టీమోడల్ AI కోసం వేరొక రెసిపీ

మల్టీమోడల్ AI వ్యవస్థలు మరింత పెద్ద context windowల వైపు పరుగెత్తుతున్నప్పటికీ, ఒక ప్రశ్న ఆశ్చర్యకరంగా ఇంకా స్పష్టత లేకుండా ఉంది: ఆ context‌ను బాగా ఉపయోగించుకోవాలని మోడల్‌ను నిజంగా ఏ రకం శిక్షణ నేర్పిస్తుంది? ByteDance Seed మరియు Hong Kong University of Science and Technology‌కు చెందిన పరిశోధకుల కొత్త అధ్యయనం, ఒక సాధారణ intuitional భావన తప్పు కావచ్చని వాదిస్తోంది. లక్ష్యం ఒక మోడల్‌కు పొడవైన, చిత్రాలతో నిండిన డాక్యుమెంట్లను అర్థం చేసుకోవడం అయితే, దానితో విపరీతంగా టెక్స్ట్‌ను ట్రాన్స్‌క్రైబ్ చేయించడం ఉత్తమ మార్గం కాదు. The Decoder వివరించిన ప్రయోగాల్లో, అది ప్రతికూలంగా కూడా మారవచ్చు.

ఈ అధ్యయనం MMProLong అనే మోడల్‌పై కేంద్రీకృతమైంది, ఇది Alibaba యొక్క ఓపెన్ Qwen2.5-VL పునాది మీద నిర్మించబడింది. శిక్షణ సమయంలో చూసిన దానికంటే గణనీయంగా పొడవైన డాక్యుమెంట్లు ఉన్న సందర్భాలు సహా, పొడవైన డాక్యుమెంట్ పనుల్లో ఈ వ్యవస్థ చాలా పెద్ద పోటీదారులను మించినట్లు పరిశోధకులు చెబుతున్నారు. ముఖ్యమైన కనుగొనడం కేవలం scale గురించి కాదు. అది supervision గురించి: పేజీలపై ఉన్న టెక్స్ట్‌ను గుర్తించి తిరిగి ఉత్పత్తి చేయించడంకన్నా, ఒక పూర్తి డాక్యుమెంట్ గురించి ప్రశ్నలు అడగడం ద్వారా మోడళ్లు ఎక్కువ నేర్చుకున్నాయి.

OCR-లాంటి శిక్షణ ఎందుకు తక్కువగా పనిచేస్తుంది

మొదట చూడటానికి, టెక్స్ట్ గుర్తింపు పొడవైన డాక్యుమెంట్లకు సహజమైన training objectiveలా కనిపిస్తుంది. ఒక మోడల్ ప్రతి పేజీని చదవగలిగితే, సిద్ధాంతపరంగా అది డాక్యుమెంట్‌లో ఏముందో తెలుసుకోవాలి. కానీ గుర్తింపు అనేది retrieval లేదా reasoning‌తో సమానమేమీ కాదని అధ్యయనం వాదిస్తోంది. పేజీ కంటెంట్‌ను ట్రాన్స్‌క్రైబ్ చేయడం నేర్చుకున్న మోడల్, స్థానిక టెక్స్ట్ extraction‌లో మెరుగవుతుంది, కానీ వినియోగదారు లక్ష్యిత ప్రశ్న అడిగినప్పుడు, పొడవైన పేజీల క్రమంలో సంబంధిత సమాచారాన్ని ఎక్కడ కనుగొనాలో నేర్చుకోదు.

పరిశోధకులు రెండు విధానాలను నేరుగా పోల్చారు. ఒక సెటప్‌లో, మోడల్ అన్ని పేజీలపై లేదా ఎంపిక చేసిన పేజీలపై character recognition చేసింది, మిగతా పేజీలు context‌లో distractionలుగా ఉండాయి. మరొక సెటప్‌లో, ప్రత్యేక ByteDance మోడల్ Seed 2.0ను డాక్యుమెంట్ విభాగాల కోసం question-answer జతలను రూపొందించడానికి ఉపయోగించారు. ఆపై శిక్షణలో ప్రశ్నను మొత్తం డాక్యుమెంట్‌తో పాటు చూపించారు, తద్వారా సమాధానాన్ని కనుగొనడానికి మోడల్ పొడవైన context‌ను శోధించాల్సి వచ్చింది.

రిపోర్టు ప్రకారం, ఫలితం స్పష్టంగా ఉంది. కేవలం టెక్స్ట్-గుర్తింపు శిక్షణ ప్రారంభ స్థితితో పోలిస్తే పనితీరును మరింత చెడగొట్టింది. ప్రశ్న-జవాబు శిక్షణ స్పష్టమైన లాభాలను ఇచ్చింది.

చదవడమే కాదు, తిరిగి పొందడాన్ని కూడా నేర్పించడం

ఈ తేడా ముఖ్యమైనది, ఎందుకంటే పొడవైన డాక్యుమెంట్ AIలో వాస్తవ సమస్య సాధారణంగా చదవగలగడమే కాదు. ఆధునిక మోడళ్లకు ఇప్పటికే చిత్రాలు లేదా రెండర్ చేసిన పేజీల నుండి టెక్స్ట్ చదవడానికి అనేక మార్గాలు ఉన్నాయి. కష్టమైన సమస్య పెద్ద context‌లో ఏమి ముఖ్యమో నిర్ణయించడం, దాన్ని సమర్థవంతంగా కనుగొనడం, మరియు దాన్ని వినియోగదారుడి అభ్యర్థనతో అనుసంధానం చేయడం.

ప్రశ్న-జవాబు supervision ఆ సవాలుకు మరింత అనుకూలంగా కనిపిస్తోంది. ప్రతిదీ తిరిగి ఉత్పత్తి చేయడానికి మోడల్‌ను ప్రోత్సహించడానికి బదులుగా, సరైన విషయాన్ని కనుగొనడానికి దాన్ని ప్రోత్సహిస్తుంది. పొడవైన reports, PDFs, slides, లేదా technical manuals‌లో, అది శబ్దాన్ని దాటుకుని వెళ్లడం, సంబంధం లేని పేజీలను పట్టించుకోకుండా ఉండడం, మరియు నిజంగా prompt‌కు సమాధానం ఇచ్చే context భాగాన్ని గుర్తించడం అని అర్థం.

విస్తృతమైన అర్థం ఏమిటంటే, దీర్ఘ-సందర్భ సామర్థ్యం కేవలం hardware లేదా token-budget సమస్య మాత్రమే కాదు. అది objective-design సమస్య కూడా. ఒక million-token context window కలిగి ఉండటం వల్ల మాత్రమే అది ఉపయోగకరంగా మారదు, మోడల్ దాన్ని ఎలా ఉపయోగించాలో నేర్పించనట్లయితే.

శిక్షణ పైప్లైన్ ఎలా పనిచేస్తుంది

The Decoder, OCR parsing, automatic question generation, మరియు re-embeddingలను కలిపి నిజమైన డాక్యుమెంట్ల నుండి long-context training examples తయారు చేసే ఒక synthesis pipeline‌ను వివరిస్తుంది. OCR ఇంకా పాత్ర పోషిస్తుంది, కానీ తుది లక్ష్యంగా కాదు. బదులుగా, డాక్యుమెంట్ భాగాలకు అనుసంధానమైన అర్థవంతమైన question-answer జతలను వేరే వ్యవస్థ తయారు చేయడానికి source material‌ను నిర్మించడంలో అది సహాయపడుతుంది.

ఆ pipeline ముఖ్యమైనది, ఎందుకంటే అధిక-నాణ్యత long-document supervision‌ను చేతితో తయారు చేయడం ఖరీదైనది. ప్రశ్న-జవాబు డేటా ఉత్పత్తిని ఆటోమేట్ చేయడం ద్వారా, పరిశోధకులు training examples‌ను scale చేయగలరు, అదే సమయంలో పనిని తుది వినియోగదారులు నిజంగా మోడల్ నుండి కోరుకునే దానితో సరిపోల్చగలరు: దీర్ఘ input‌పై ఆధారపడి ఉన్న సమాధానాలు, దాని raw transcription కాదు.

చిన్న మోడల్, పెద్ద సంకేతం

ఈ అధ్యయనంలో అత్యంత ప్రభావవంతమైన వాదనలలో ఒకటి, 7 బిలియన్ పరామితుల మోడల్ ఈ తరహా పనిలో చాలా పెద్ద ప్రత్యర్థులను మించగలదనేది. ఆ ఫలితం సాధారణంగా వర్తిస్తే, కొన్ని multimodal workloads కోసం training design అనేది brute-force scaling‌కు సమానంగా లేదా దానికన్నా మించి ప్రాముఖ్యత కలిగి ఉండవచ్చని సూచిస్తుంది.

ఇది AI పరిశ్రమ అంతటా వ్యూహాత్మకంగా ముఖ్యమైనది. OpenAI, Google, Alibaba వంటి ల్యాబ్‌లు చాలా పెద్ద context windowలను ప్రోత్సహిస్తున్నాయి, కానీ public technical reports long-context training data యొక్క composition గురించి చాలా తక్కువ చెబుతాయి. ByteDance అధ్యయనం, context-window size మాత్రమే సామర్థ్యానికి ఉపయోగకరమైన proxy అనే ఆలోచనపై ఒత్తిడి పెడుతోంది. ఒక మోడల్ భారీ inputs‌ను స్వీకరించగలదు, కానీ training objective తప్పు నైపుణ్యాలపై దృష్టి పెట్టి ఉంటే వాటిని బాగా ఉపయోగించడంలో విఫలమవుతుంది.

Enterprise AIకి ఇది ఎందుకు ముఖ్యం

Long-document understanding అనేది అకడమిక్ అపవాదం కాదు. సంస్థలు contracts, slide decks, reports, knowledge bases, technical manuals, మరియు research archives అంతటా పనిచేయగల మోడళ్లను కోరుకుంటాయి. వాటిలో చాలా సందర్భాల్లో, ప్రతి అక్షరాన్ని వెలికితీయడంకన్నా, నిర్దిష్ట ప్రశ్నకు ఖచ్చితంగా సమాధానం ఇవ్వడం మరియు సరైన section‌ను సూచించడం ఎక్కువ విలువైనది.

OCR-heavy supervision long-context performance‌ను దిగజార్చితే, business use కోసం multimodal systems‌ను fine-tune చేయడం ఎలా అన్నదాన్ని product teams తిరిగి ఆలోచించాల్సి రావచ్చు. ఈ కనుగొనడాలు benchmarks reading ability మరియు document reasoning abilityను మరింత జాగ్రత్తగా వేరు చేయాల్సిన అవసరం ఉందని కూడా సూచిస్తున్నాయి. Page-level recognitionలో బలంగా కనిపించే మోడల్, సమాచారం డజన్ల లేదా వందల పేజీలలో చెల్లాచెదురుగా ఉన్నప్పుడు విఫలమవచ్చు.

Context‌పై మరింత పరిపక్వ దృక్పథం

ఈ అధ్యయనం AI సామర్థ్యం ఎలా చర్చించబడుతోందో దానిలో జరుగుతున్న మార్పుకు సహకరిస్తోంది. పెద్ద context windowలు ఇంకా ముఖ్యమైనవే, కానీ సంభాషణ capacity నుంచి utilization వైపు కదులుతోంది. ముఖ్యమైనది మోడల్ ఎంత మొత్తాన్ని ఉంచగలదో కాదు, ఆ స్థలంలో ఎంత సమర్థవంతంగా శోధించగలదో, ప్రాధాన్యం ఇవ్వగలదో, reasoning చేయగలదో అన్నదే.

ప్రశ్న-జవాబు శిక్షణ transcription-heavy విధానాల ప్రభావాలను మించగలదని, వాటిని తిప్పికొట్టగలదని చూపించడం ద్వారా, పరిశోధకులు multimodal AI builders‌కు ఒక స్పష్టమైన design principle‌ను అందిస్తున్నారు. దీర్ఘ-సందర్భ intelligence అన్నది ప్రతిదీ కాపీ చేయడం ద్వారా నేర్చుకోబడదు. ఏమి ముఖ్యమో కనుగొనడం ఎలా అనే అభ్యాసాన్ని పునరావృతంగా చేయడం ద్వారా అది నేర్చుకోబడుతుంది.

వెనక్కి చూసినప్పుడు అది స్పష్టంగా అనిపించవచ్చు. Model training‌లో, స్పష్టంగా కనిపించే ఆలోచనలు తరచుగా పాత అలవాటు తప్పని అనేక ఖరీదైన ఆధారాలు చెప్పిన తర్వాతే వస్తాయి.

ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. అసలు వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com

దీర్ఘ-సందర్భ మల్టీమోడల్ AI కోసం వేరొక రెసిపీ

OCR-లాంటి శిక్షణ ఎందుకు తక్కువగా పనిచేస్తుంది

చదవడమే కాదు, తిరిగి పొందడాన్ని కూడా నేర్పించడం

శిక్షణ పైప్లైన్ ఎలా పనిచేస్తుంది

చిన్న మోడల్, పెద్ద సంకేతం

Enterprise AIకి ఇది ఎందుకు ముఖ్యం

Context‌పై మరింత పరిపక్వ దృక్పథం

Comments (0)

Related Articles

అభ్యర్థులను పరీక్షించేందుకు Anthropic ఇంటర్వ్యూలలో AI టూల్స్‌ను నిషేధించింది

Keep Reading