Mirage video world model memory-ஐ மேம்படுத்துகிறது

World models ஒரு memory சிக்கலை எதிர்கொள்கின்றன

Video generation systems விரைவாக மேம்பட்டுள்ளன, ஆனால் ஒரு பலவீனம் தொடர்ந்து நீடிக்கிறது: அவை காலப்போக்கில் physical space-ஐப் பின்தொடர்ந்து வைத்திருக்கத் தவறுகின்றன. Camera திரும்பும்போது ஒரு room-ன் வடிவம் மாறிவிடுகிறது. Furniture இடம் மாறுகிறது. Surfaces, model சில தருணங்களுக்கு முன்பு காட்டியதுடன் இனி பொருந்தவில்லை. இந்த failure குறிப்பாக so-called world models-க்கு கட்டுப்பாட்டை ஏற்படுத்துகிறது; அங்கு continuity, isolated visual quality-ஐ விட அதிக முக்கியத்துவம் பெறுகிறது.

Microsoft Research மற்றும் கல்வி கூட்டாளர்களால் உருவாக்கப்பட்ட Mirage எனும் புதிய system, அந்த சிக்கலை மேலும் திறமையாகத் தீர்க்கும் வழியாக முன்வைக்கப்படுகிறது. Conventional pixel-based 3D memory pipeline-ஐ நம்புவதற்குப் பதிலாக, Mirage scene information-ஐ model-ன் latent space-இல் நேரடியாக சேமிக்கிறது. Source material படி, இதன் விளைவாக extended camera motion-இல் அதிக stable spatial consistency கிடைக்கிறது; அதே நேரத்தில் speed மற்றும் memory efficiency-யிலும் பெரிய முன்னேற்றங்கள் கிடைக்கின்றன.

Generative simulation-இன் practical bottlenecks-இல் ஒன்றை இது கையாளுகிறது என்பதால் இந்த project தனித்துச் தெரிகிறது: viewpoint மாறும் ஒவ்வொரு முறையும் மிக அதிக computational செலவைச் செலுத்தாமல் ஒரு இடத்தை எப்படி நினைவில் வைத்துக்கொள்வது.

பழைய memory pipelines ஏன் விலையுயர்ந்தவை

முந்தைய பல systems-இல், spatial memory visible image data-இல் இருந்து கட்டப்பட்ட 3D point cloud மூலம் பராமரிக்கப்படுகிறது. Model புதிய views-ஐ generate செய்யும் போது, அது அந்த cloud-ஐ update செய்து, பின்னர் generator பயன்படுத்தக்கூடிய வடிவத்தில் அதை மீண்டும் மீண்டும் render செய்கிறது. இதனால் தகவல் latent features-இல் இருந்து pixel-space structure-க்கு, அங்கிருந்து மீண்டும் பின்வரும் ஒரு loop உருவாகிறது.

Mirage-ன் authors இந்த அணுகுமுறையை double bottleneck என்று விவரிக்கின்றனர். இது compute-க்கு செலவானது; மேலும் rendered image space-இன் வழியாக மீண்டும் மீண்டும் மாறும்போது தகவல் இழப்பின் அபாயமும் உள்ளது. நீண்ட sequences-இல் அந்த இழப்புகள் கண்ணுக்குத் தெரியும் instability-ஆக மாறலாம். Model, local அளவில் நம்பத்தகுந்த frames-ஐ உருவாக்கினாலும், அது காக்க வேண்டிய scene geometry-யிலிருந்து மெதுவாக விலகிச் செல்லலாம்.

இது முக்கியம், ஏனெனில் world models இப்போது simulation, embodied AI training, synthetic environments, மற்றும் interactive scene generation ஆகியவற்றுக்கான tools-ஆக அதிகமாக பேசப்படுகின்றன. அந்த சூழல்களில் memory விருப்பமானது அல்ல. மூலையில் என்ன இருக்கிறது என்பதை மறக்கும் model, நீண்ட நேரத்துக்கு நம்பகமான environment model-ஆக செயல்பட முடியாது.

இரண்டு video world model pipelines-ன் ஒப்பீட்டு diagram. Top: render-and-encode loop உடைய RGB point cloud memory. Bottom: Mirage — இரண்டு video world model pipelines side by side. Top: render-and-encode loop உடைய RGB point cloud memory. Bottom: latent space-இல் நேரடியாக உருவாக்கப்பட்டும் படிக்கப்பட்டும் இருக்கும் Mirage-ன் latent spatial memory. | Image: Wang et al.

Edge AI software layer diagram from Numurus.

ரோபோட்களுக்கான விண்டோஸ் அடுக்காக எட்ஜ் ஏஐ மாறக்கூடும்

எட்ஜ் ஏஐ மென்பொருளின் வளர்ந்து வரும் வகை, வன்பொருள் சிக்கல்களை தொழில்நுட்ப நிபுணர் அல்லாதவர்களுக்காக மறைமுகப்படுத்தி, ரோபோட்களை உருவாக்கவும் பயன்படுத்தவும் எளிதாக்க விரும்புகிறது.

Read article

Mirage-ன் core idea

Mirage வேறு பாதையை எடுத்துக் கொண்டு, internal image features-ஐ நேரடியாக latent space-இல் உள்ள spatial memory-யில் சேமிக்கிறது. Visible color points-ஐ மட்டும் பாதுகாப்பதற்குப் பதிலாக, அது கற்றுக்கொண்ட features-ஐ 3D space-இல் உள்ள positions-க்கு anchor செய்கிறது. System-க்கு புதிய viewpoint-ஐ generate செய்ய வேண்டுமெனில், அந்த latent memory target camera view-க்கு project செய்யப்படுகிறது; அதன் விளைவாக வரும் output நேரடியாக generator-க்கு feed செய்யப்படுகிறது.

Pixel-space point clouds வழியாக render-and-re-encode detour-ஐத் தவிர்ப்பதன் மூலம், Mirage நேரமும் memory-யும் இரண்டையும் சேமிக்க வடிவமைக்கப்பட்டுள்ளது. Source text படி, இது comparable models-ஐவிட 10.5 மடங்கு வரை வேகமாக videos-ஐ generate செய்யவும், 55 மடங்கு வரை குறைவான memory-ஐ பயன்படுத்தவும் முடியும். இப்படியான முன்னேற்றங்கள் ஒரு technique research curiosity-ஆகவே இருக்குமா அல்லது operationally useful-ஆக மாறுமா என்பதைக் தீர்மானிக்கக்கூடும்.

இந்த approach generative AI-யில் உள்ள ஒரு broader pattern-க்கும் பொருந்துகிறது: முக்கியமான representation work-ஐ latent spaces-க்கு நகர்த்துவது, அங்கு models raw pixels-ஐ மட்டும் அல்லாமல் அதிக compact மற்றும் semantically meaningful features-இல் செயல்பட முடியும்.

System எதை மேம்படுத்துகிறது என்று தெரிகிறது

Mirage-ன் முக்கிய வாக்குறுதி efficiency மட்டும் அல்ல. அது persistence-மும் ஆகும். உருவாக்கப்படும் scenes-ன் spatial structure நீண்ட camera paths-இல் கூட coherent-ஆக இருக்க வேண்டும், repeated viewpoints மாறி வருவதற்கான போக்கை குறைக்க வேண்டும் என்பதே model-ன் நோக்கம். இதனால் scene continuity task-இன் ஒரு பகுதியாக இருக்கும் applications-க்கு இது குறிப்பாக தொடர்புடையதாகிறது; வெறும் cosmetic bonus அல்ல.

முக்கியமாக, moving objects இன்னும் memory-இலிருந்து filter out செய்யப்படுகின்றன என்று source குறிப்பிடுகிறது. இதன் பொருள், Mirage இப்போது பல objects சுயாதீனமாக நகரும் dynamic environments-ஐ முழுமையாக model செய்வதைவிட stable scene layout-ஐ பராமரிப்பதில் அதிக கவனம் செலுத்துகிறது. இருந்தாலும், static world-ஐ stabilize செய்வது பிரச்சினையின் அடிப்படை அடுக்கு ஒன்றை address செய்வதால் ஒரு பெரிய முன்னேற்றமாகும்.

Architecture, room layout, அல்லது terrain geometry-யை தொடர்ந்து நினைவில் வைத்திருக்கும் world model, பின்னர் motion மற்றும் interaction-ஐ மேலும் நுட்பமாக கையாளக்கூடிய future systems-க்கு வலுவான அடிப்படையை வழங்குகிறது.

‘Count Anything’ பொதுவான AI திறனாக பொருள் எண்ணிக்கையை மாற்ற முயல்கிறது

Count Anything எனப்படும் புதிய ஆய்வு மாதிரி, கூட்டக் காட்சிகளிலிருந்து மருத்துவ ஸ்கேன் மற்றும் செயற்கைக்கோள் படங்கள் வரை பல்வேறு படங்களில் பொருட்களை எண்ண உரைத் தூண்டுதல்களைப் பயன்படுத்துகிறது.

Read article

Video generation demos-ஐத் தாண்டி இது ஏன் முக்கியம்

Generative video research பெரும்பாலும் short clips மற்றும் visual spectacle வழியாகப் பார்க்கப்படுகிறது; ஆனால் மிகவும் முக்கியமான முன்னேற்றங்கள் simulation-ஐ ஆதரிக்கும் systems-இலிருந்து வரக்கூடும். AI models-ஐ robots, virtual agents, planning systems, அல்லது interactive content tools-க்கான training ground-ஆகப் பயன்படுத்த வேண்டுமெனில், அவற்றிற்கு durable world state ஏதோ ஒரு வடிவில் தேவைப்படும்.

VAE மற்றும் depth estimation first frame-இல் இருந்து latent cache-ஐ உருவாக்கும் Mirage pipeline. ஒவ்வொரு generation chunk-மும் அதிலிருந்து readout மூலம் படித்து, write மூலம் update செய்கிறது; latent 3D representation t0-இலிருந்து tN வரை காலத்துடன் வளர்கிறது. — Mirage starting image-இல் இருந்து latent cache-ஐ seed செய்கிறது, பின்னர் அதை chunk by chunk read மற்றும் write செய்கிறது; இதனால் முழு run-இலும் static scene content intact ஆகிறது. | Image: Wang et al.

அதனால்தான் Mirage குறிப்பிடத்தக்கதாகிறது. இது scene memory-ஐ frame-to-frame prediction-இன் fragile side effect-ஆக அல்ல, மாறாக internal, structured resource-ஆகக் கருதும் ஒரு model generation-ஐ நோக்கிச் சுட்டுகிறது. Efficient spatial memory, impressive one-off generations மற்றும் reusable simulated environments இடையிலான இடைவெளியை குறைக்க உதவலாம்.

Infrastructure angle ஒன்றும் உள்ளது. Compute cost AI deployment-இன் தீர்மானிக்கும் கட்டுப்பாடுகளில் ஒன்றாகவே உள்ளது. Processing time மற்றும் memory requirements இரண்டையும் குறைக்கும் methods, advanced world models-இல் experiment செய்யக்கூடிய researchers மற்றும் companies எண்ணிக்கையை அதிகரிக்க முடியும். Quality improvements போலவே efficiency improvements-மும் adoption-ஐ shape செய்கின்றன.

கவனிக்க வேண்டிய research signal

Mirage இன்னும் ஒரு research development-ஆகவே புரிந்துகொள்ளப்பட வேண்டும்; முடிந்த platform-ஆக அல்ல. கிடைக்கும் source material அதன் architecture மற்றும் benchmark advantages-ஐ மையமாக்குகிறது; பரவலான deployment-ஐ அல்ல. இந்த approach எவ்வளவு நன்றாக generalize ஆகிறது, மேலும் complex அல்லது dynamic scenes-இல் எப்படி செயல்படுகிறது, downstream simulation tasks-உடன் எப்படி integrate ஆகிறது என்ற கேள்விகள் இன்னும் உள்ளன.

ஆனால் paper-ன் திசை முக்கியமானது. Video realism-ஐ ever-larger brute-force generation மூலம் விரட்டுவதற்குப் பதிலாக, Mirage models space-ஐ எப்படி represent செய்கின்றன என்பதில் உள்ள structural weakness-ஐ address செய்கிறது. Reliable memory என்பது clip machine-ஆக அல்லாமல் world-ஆக செயல்பட விரும்பும் எந்த model-க்கும் முன்னுரிமைத் தேவை என்பதால் இது ஒரு meaningful shift ஆகும்.

Practical terms-இல், long-horizon scene consistency-க்கு expensive pixel-space memory loop அவசியமில்லை என்று system சுட்டிக்காட்டுகிறது. Leaner latent-space mechanism, குறைவான செலவில் உலகின் அதிகப் பகுதியை பாதுகாக்கப் போதுமானதாக இருக்கலாம்.

AI research-க்கு இந்த சேர்க்கை சக்திவாய்ந்தது. Better coherence world models-ஐ அதிக பயனுள்ளதாக ஆக்குகிறது. Lower cost அவற்றை அதிக scalable-ஆக ஆக்குகிறது. Mirage-ன் claims பரந்த testing-இல் நிலைத்தால், video மற்றும் simulation models-ன் அடுத்த அலை தங்கள் கடினமான பிரச்சினைகளில் ஒன்றை எப்படி கையாளும் என்பதில் அது தாக்கம் செலுத்தலாம்: அவை எங்கே இருக்கின்றன என்பதை நினைவில் வைத்திருப்பது.

இந்த article The Decoder-ன் reporting-ஐ அடிப்படையாகக் கொண்டது. மூல கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

Microsoft ஆதரவுள்ள Mirage, latent spatial memory மூலம் video world models-ஐ வேகமாக்குகிறது