దీర్ఘ-సందర్భ మల్టీమోడల్ AI కోసం వేరొక రెసిపీ
మల్టీమోడల్ AI వ్యవస్థలు మరింత పెద్ద context windowల వైపు పరుగెత్తుతున్నప్పటికీ, ఒక ప్రశ్న ఆశ్చర్యకరంగా ఇంకా స్పష్టత లేకుండా ఉంది: ఆ contextను బాగా ఉపయోగించుకోవాలని మోడల్ను నిజంగా ఏ రకం శిక్షణ నేర్పిస్తుంది? ByteDance Seed మరియు Hong Kong University of Science and Technologyకు చెందిన పరిశోధకుల కొత్త అధ్యయనం, ఒక సాధారణ intuitional భావన తప్పు కావచ్చని వాదిస్తోంది. లక్ష్యం ఒక మోడల్కు పొడవైన, చిత్రాలతో నిండిన డాక్యుమెంట్లను అర్థం చేసుకోవడం అయితే, దానితో విపరీతంగా టెక్స్ట్ను ట్రాన్స్క్రైబ్ చేయించడం ఉత్తమ మార్గం కాదు. The Decoder వివరించిన ప్రయోగాల్లో, అది ప్రతికూలంగా కూడా మారవచ్చు.
ఈ అధ్యయనం MMProLong అనే మోడల్పై కేంద్రీకృతమైంది, ఇది Alibaba యొక్క ఓపెన్ Qwen2.5-VL పునాది మీద నిర్మించబడింది. శిక్షణ సమయంలో చూసిన దానికంటే గణనీయంగా పొడవైన డాక్యుమెంట్లు ఉన్న సందర్భాలు సహా, పొడవైన డాక్యుమెంట్ పనుల్లో ఈ వ్యవస్థ చాలా పెద్ద పోటీదారులను మించినట్లు పరిశోధకులు చెబుతున్నారు. ముఖ్యమైన కనుగొనడం కేవలం scale గురించి కాదు. అది supervision గురించి: పేజీలపై ఉన్న టెక్స్ట్ను గుర్తించి తిరిగి ఉత్పత్తి చేయించడంకన్నా, ఒక పూర్తి డాక్యుమెంట్ గురించి ప్రశ్నలు అడగడం ద్వారా మోడళ్లు ఎక్కువ నేర్చుకున్నాయి.
OCR-లాంటి శిక్షణ ఎందుకు తక్కువగా పనిచేస్తుంది
మొదట చూడటానికి, టెక్స్ట్ గుర్తింపు పొడవైన డాక్యుమెంట్లకు సహజమైన training objectiveలా కనిపిస్తుంది. ఒక మోడల్ ప్రతి పేజీని చదవగలిగితే, సిద్ధాంతపరంగా అది డాక్యుమెంట్లో ఏముందో తెలుసుకోవాలి. కానీ గుర్తింపు అనేది retrieval లేదా reasoningతో సమానమేమీ కాదని అధ్యయనం వాదిస్తోంది. పేజీ కంటెంట్ను ట్రాన్స్క్రైబ్ చేయడం నేర్చుకున్న మోడల్, స్థానిక టెక్స్ట్ extractionలో మెరుగవుతుంది, కానీ వినియోగదారు లక్ష్యిత ప్రశ్న అడిగినప్పుడు, పొడవైన పేజీల క్రమంలో సంబంధిత సమాచారాన్ని ఎక్కడ కనుగొనాలో నేర్చుకోదు.
పరిశోధకులు రెండు విధానాలను నేరుగా పోల్చారు. ఒక సెటప్లో, మోడల్ అన్ని పేజీలపై లేదా ఎంపిక చేసిన పేజీలపై character recognition చేసింది, మిగతా పేజీలు contextలో distractionలుగా ఉండాయి. మరొక సెటప్లో, ప్రత్యేక ByteDance మోడల్ Seed 2.0ను డాక్యుమెంట్ విభాగాల కోసం question-answer జతలను రూపొందించడానికి ఉపయోగించారు. ఆపై శిక్షణలో ప్రశ్నను మొత్తం డాక్యుమెంట్తో పాటు చూపించారు, తద్వారా సమాధానాన్ని కనుగొనడానికి మోడల్ పొడవైన contextను శోధించాల్సి వచ్చింది.
రిపోర్టు ప్రకారం, ఫలితం స్పష్టంగా ఉంది. కేవలం టెక్స్ట్-గుర్తింపు శిక్షణ ప్రారంభ స్థితితో పోలిస్తే పనితీరును మరింత చెడగొట్టింది. ప్రశ్న-జవాబు శిక్షణ స్పష్టమైన లాభాలను ఇచ్చింది.
చదవడమే కాదు, తిరిగి పొందడాన్ని కూడా నేర్పించడం
ఈ తేడా ముఖ్యమైనది, ఎందుకంటే పొడవైన డాక్యుమెంట్ AIలో వాస్తవ సమస్య సాధారణంగా చదవగలగడమే కాదు. ఆధునిక మోడళ్లకు ఇప్పటికే చిత్రాలు లేదా రెండర్ చేసిన పేజీల నుండి టెక్స్ట్ చదవడానికి అనేక మార్గాలు ఉన్నాయి. కష్టమైన సమస్య పెద్ద contextలో ఏమి ముఖ్యమో నిర్ణయించడం, దాన్ని సమర్థవంతంగా కనుగొనడం, మరియు దాన్ని వినియోగదారుడి అభ్యర్థనతో అనుసంధానం చేయడం.
ప్రశ్న-జవాబు supervision ఆ సవాలుకు మరింత అనుకూలంగా కనిపిస్తోంది. ప్రతిదీ తిరిగి ఉత్పత్తి చేయడానికి మోడల్ను ప్రోత్సహించడానికి బదులుగా, సరైన విషయాన్ని కనుగొనడానికి దాన్ని ప్రోత్సహిస్తుంది. పొడవైన reports, PDFs, slides, లేదా technical manualsలో, అది శబ్దాన్ని దాటుకుని వెళ్లడం, సంబంధం లేని పేజీలను పట్టించుకోకుండా ఉండడం, మరియు నిజంగా promptకు సమాధానం ఇచ్చే context భాగాన్ని గుర్తించడం అని అర్థం.
విస్తృతమైన అర్థం ఏమిటంటే, దీర్ఘ-సందర్భ సామర్థ్యం కేవలం hardware లేదా token-budget సమస్య మాత్రమే కాదు. అది objective-design సమస్య కూడా. ఒక million-token context window కలిగి ఉండటం వల్ల మాత్రమే అది ఉపయోగకరంగా మారదు, మోడల్ దాన్ని ఎలా ఉపయోగించాలో నేర్పించనట్లయితే.
శిక్షణ పైప్లైన్ ఎలా పనిచేస్తుంది
The Decoder, OCR parsing, automatic question generation, మరియు re-embeddingలను కలిపి నిజమైన డాక్యుమెంట్ల నుండి long-context training examples తయారు చేసే ఒక synthesis pipelineను వివరిస్తుంది. OCR ఇంకా పాత్ర పోషిస్తుంది, కానీ తుది లక్ష్యంగా కాదు. బదులుగా, డాక్యుమెంట్ భాగాలకు అనుసంధానమైన అర్థవంతమైన question-answer జతలను వేరే వ్యవస్థ తయారు చేయడానికి source materialను నిర్మించడంలో అది సహాయపడుతుంది.
ఆ pipeline ముఖ్యమైనది, ఎందుకంటే అధిక-నాణ్యత long-document supervisionను చేతితో తయారు చేయడం ఖరీదైనది. ప్రశ్న-జవాబు డేటా ఉత్పత్తిని ఆటోమేట్ చేయడం ద్వారా, పరిశోధకులు training examplesను scale చేయగలరు, అదే సమయంలో పనిని తుది వినియోగదారులు నిజంగా మోడల్ నుండి కోరుకునే దానితో సరిపోల్చగలరు: దీర్ఘ inputపై ఆధారపడి ఉన్న సమాధానాలు, దాని raw transcription కాదు.
చిన్న మోడల్, పెద్ద సంకేతం
ఈ అధ్యయనంలో అత్యంత ప్రభావవంతమైన వాదనలలో ఒకటి, 7 బిలియన్ పరామితుల మోడల్ ఈ తరహా పనిలో చాలా పెద్ద ప్రత్యర్థులను మించగలదనేది. ఆ ఫలితం సాధారణంగా వర్తిస్తే, కొన్ని multimodal workloads కోసం training design అనేది brute-force scalingకు సమానంగా లేదా దానికన్నా మించి ప్రాముఖ్యత కలిగి ఉండవచ్చని సూచిస్తుంది.
ఇది AI పరిశ్రమ అంతటా వ్యూహాత్మకంగా ముఖ్యమైనది. OpenAI, Google, Alibaba వంటి ల్యాబ్లు చాలా పెద్ద context windowలను ప్రోత్సహిస్తున్నాయి, కానీ public technical reports long-context training data యొక్క composition గురించి చాలా తక్కువ చెబుతాయి. ByteDance అధ్యయనం, context-window size మాత్రమే సామర్థ్యానికి ఉపయోగకరమైన proxy అనే ఆలోచనపై ఒత్తిడి పెడుతోంది. ఒక మోడల్ భారీ inputsను స్వీకరించగలదు, కానీ training objective తప్పు నైపుణ్యాలపై దృష్టి పెట్టి ఉంటే వాటిని బాగా ఉపయోగించడంలో విఫలమవుతుంది.
Enterprise AIకి ఇది ఎందుకు ముఖ్యం
Long-document understanding అనేది అకడమిక్ అపవాదం కాదు. సంస్థలు contracts, slide decks, reports, knowledge bases, technical manuals, మరియు research archives అంతటా పనిచేయగల మోడళ్లను కోరుకుంటాయి. వాటిలో చాలా సందర్భాల్లో, ప్రతి అక్షరాన్ని వెలికితీయడంకన్నా, నిర్దిష్ట ప్రశ్నకు ఖచ్చితంగా సమాధానం ఇవ్వడం మరియు సరైన sectionను సూచించడం ఎక్కువ విలువైనది.
OCR-heavy supervision long-context performanceను దిగజార్చితే, business use కోసం multimodal systemsను fine-tune చేయడం ఎలా అన్నదాన్ని product teams తిరిగి ఆలోచించాల్సి రావచ్చు. ఈ కనుగొనడాలు benchmarks reading ability మరియు document reasoning abilityను మరింత జాగ్రత్తగా వేరు చేయాల్సిన అవసరం ఉందని కూడా సూచిస్తున్నాయి. Page-level recognitionలో బలంగా కనిపించే మోడల్, సమాచారం డజన్ల లేదా వందల పేజీలలో చెల్లాచెదురుగా ఉన్నప్పుడు విఫలమవచ్చు.
Contextపై మరింత పరిపక్వ దృక్పథం
ఈ అధ్యయనం AI సామర్థ్యం ఎలా చర్చించబడుతోందో దానిలో జరుగుతున్న మార్పుకు సహకరిస్తోంది. పెద్ద context windowలు ఇంకా ముఖ్యమైనవే, కానీ సంభాషణ capacity నుంచి utilization వైపు కదులుతోంది. ముఖ్యమైనది మోడల్ ఎంత మొత్తాన్ని ఉంచగలదో కాదు, ఆ స్థలంలో ఎంత సమర్థవంతంగా శోధించగలదో, ప్రాధాన్యం ఇవ్వగలదో, reasoning చేయగలదో అన్నదే.
ప్రశ్న-జవాబు శిక్షణ transcription-heavy విధానాల ప్రభావాలను మించగలదని, వాటిని తిప్పికొట్టగలదని చూపించడం ద్వారా, పరిశోధకులు multimodal AI buildersకు ఒక స్పష్టమైన design principleను అందిస్తున్నారు. దీర్ఘ-సందర్భ intelligence అన్నది ప్రతిదీ కాపీ చేయడం ద్వారా నేర్చుకోబడదు. ఏమి ముఖ్యమో కనుగొనడం ఎలా అనే అభ్యాసాన్ని పునరావృతంగా చేయడం ద్వారా అది నేర్చుకోబడుతుంది.
వెనక్కి చూసినప్పుడు అది స్పష్టంగా అనిపించవచ్చు. Model trainingలో, స్పష్టంగా కనిపించే ఆలోచనలు తరచుగా పాత అలవాటు తప్పని అనేక ఖరీదైన ఆధారాలు చెప్పిన తర్వాతే వస్తాయి.
ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. అసలు వ్యాసాన్ని చదవండి.
Originally published on the-decoder.com

