என்வீடியா Lyra 2.0 ஒரு புகைப்படத்திலிருந்து 3D ரோபோ பயிற்சி உலகங்களை உருவாக்குகிறது

ஒரு படத்திலிருந்து வழிசெலுத்தக்கூடிய 3D உலகம் வரை

என்வீடியா ஆராய்ச்சியாளர்கள் Lyra 2.0-ஐ வெளியிட்டுள்ளனர்; இது ஒரே புகைப்படத்திலிருந்து பெரிய, ஒத்திசைவான 3D சூழல்களை உருவாக்க வடிவமைக்கப்பட்ட ஒரு அமைப்பு. உருவான காட்சிகளை real time-இல் ஆராயலாம், மேலும் Isaac Sim போன்ற simulation தளங்களுக்கு export செய்யலாம்; அங்கு அவை robotics training-க்கு பயன்படுத்தப்படலாம் என நிறுவனம் கூறுகிறது.

இந்த முன்மொழிவு மிக உயர்வானது, ஆனால் robotics-இல் modern AI-யின் மையச் சிக்கலுடன் நன்றாக பொருந்துகிறது: simulation-இல் agents-ஐ பயிற்றுவிப்பது physical உலகில் பயிற்றுவிப்பதைவிட மிகவும் எளிது, மலிவு, மற்றும் பாதுகாப்பானது. ஆனால் பயனுள்ள simulation இன்னும் பெரிய, நிலையான, மற்றும் பொருத்தமான அளவுக்கு realistic-ஆக இருக்கும் சூழல்களை உருவாக்குவதிலேயே சார்ந்திருக்கிறது. ஒரு படமே பல மீட்டர்கள் நீளும் ஒத்திசைவான காட்சியைத் தொடக்கமாகக் கொள்ள முடிந்தால், அது simulation content உருவாக்கச் செலவை கணிசமாக குறைக்கலாம்.

அறிக்கையின்படி, Lyra 2.0 சுமார் 90 மீட்டர் நீளமுள்ள காட்சிகளை உருவாக்க முடியும். ஆனால் வெறும் அளவைவிட முக்கியமானது, முந்தைய முறைகளின் இரண்டு பொதுவான பலவீனங்களை model தீர்க்கிறது என்ற கூற்று: அது ஏற்கனவே உருவாக்கியதை மறப்பதில்லை, மேலும் சிறிய visual பிழைகள் கூடிவந்து பெரிய distortion-களாக மாறுவதையும் தடுக்கிறது.

நீண்ட பாதை 3D உருவாக்கம் ஏன் கடினம்

தற்போதுள்ள 3D scene generation AI systems, virtual camera தனது ஆரம்ப இடத்திலிருந்து அதிக தூரம் சென்றால் often degrade ஆகிவிடுகின்றன. நிறங்கள் மாறுகின்றன, geometry மாற்றமடைகிறது, மற்றும் சூழல் ஒத்திசைவைக் கெடுக்கிறது. camera பின்னர் ஏற்கனவே பார்த்த இடத்திற்குத் திரும்பினால், model அந்த இடத்தை முந்தைய தொடர்ச்சியைப் பாதுகாப்பதற்குப் பதிலாக மீண்டும் கற்பனை செய்துவிடலாம்.

ரோபோட்டிக்ஸிற்காக, இத்தகைய தோல்விகள் cosmetic அல்ல. தேடுதல் போது தன்னைச் சற்று மாற்றிக்கொள்கிற simulation சூழல், நிலையான spatial structure-ஐ நம்பும் embodied systems training-க்கு பலமற்ற அடித்தளமாகும். உலகமே நிலைத்திருக்காவிட்டால், navigation, manipulation, மற்றும் planning அனைத்தும் குறைவாக நம்பகமாகின்றன.

அதனால் scene coherence novelty-ஐ விட முக்கியமானது. ஒரு பயனுள்ள training world-க்கு, agent அதில் ஒரு stream of plausible images அல்ல, ஒரு இடமாகவே நடக்கக்கூடிய அளவு consistency இருக்க வேண்டும்.

Create, edit and star in videos with two Google Vids updates

Google Vids-இல் Gemini Omni மற்றும் தனிப்பட்ட அவதாரங்கள் சேர்க்கப்பட்டன

Google Workspace-இல் AI வீடியோ உருவாக்கத்தை Google விரிவுபடுத்துகிறது; இதில் prompt-அடிப்படையிலான கிளிப் உருவாக்கம், திருத்தம், மேலும் selfie மற்றும் குரல் பதிவில் இருந்து உருவாக்கப்படும் தனிப்பயன் அவதாரங்களும் உள்ளன.

Read article

Lyra 2.0 சிக்கலை எப்படித் தீர்க்க முயலுகிறது

அறிக்கையின்படி, Lyra 2.0 உருவாக்கப்பட்ட ஒவ்வொரு frame-க்கும் 3D geometry-யை சேமிக்கிறது. virtual camera முன்பே சென்ற பகுதிக்குத் திரும்பும்போது, system அந்த பழைய frames-ஐ மீட்டெடுத்து, அவற்றின் spatial information-ஐ reference material-ஆகப் பயன்படுத்துகிறது. image synthesis இன்னும் video model மூலம் செய்யப்படுகிறது, ஆனால் சேமிக்கப்பட்ட geometry orientation-ஐ பாதுகாத்து continuity-யை நிலைநிறுத்த உதவுகிறது.

இந்த வடிவமைப்பு முந்தைய systems-இன் முதல் பெரிய குறையை இலக்கிடுகிறது: மறத்தல். முன்பே பார்த்த பகுதிகளை stored geometry மூலம் மீண்டும் நினைவுகூர்ந்து, spatially re-ground செய்ய முடியுமானால், உருவாக்கப்பட்ட சூழல் நீண்ட trajectories-இல் அதிக ஒத்திசைவுடன் இருக்கும்.

இரண்டாவது சிக்கல் drift; அதாவது சிறிய generation பிழைகள் படிப்படியாக கூடிவரும் பிரச்சினை. அறிக்கையின்படி, என்வீடியாவின் தீர்வு model-ஐ அதன் own flawed outputs-க்கு எதிராகப் பயிற்றுவிப்பது; இதனால் அது degradation-ஐ வெறும் ஏற்றுக்கொள்ளாமல், அடையாளம் கண்டு சரிசெய்யக் கற்றுக்கொள்கிறது. இது நடைமுறைத் தந்திரம். generation சுத்தமாக இருக்கும் என்று நடிப்பதற்குப் பதிலாக, பயிற்சி செயல்முறை model-ஐ அது உருவாக்கக்கூடிய noise-க்கு உள்ளாக்குகிறது.

Benchmark கோரிக்கைகள் மற்றும் போட்டி நிலை

இரு datasets-இல் நடந்த benchmark சோதனைகளில் GEN3C, Yume-1.5, மற்றும் CaM உட்பட ஆறு போட்டி முறைகளை Lyra 2.0 முந்தியதாக என்வீடியா கூறுகிறது. அந்த மதிப்பீடுகளின் முழு விவரங்களை அறிக்கை தரவில்லை; எனவே இந்த போட்டித் தகுதியை முழுமையான தொழில்நுட்ப ஒப்பீடாக அல்ல, ஒரு சுருக்கமாகவே பார்க்க வேண்டும். இருந்தாலும், முக்கியத்துவம் தெளிவானது: என்வீடியா Lyra 2.0-ஐ ஒரு ஆய்வகக் களியாட்டமாக அல்ல, நீண்ட தூர scene generation-இல் state-of-the-art போட்டியாளராக முன்வைக்கிறது.

இது முக்கியம், ஏனெனில் இந்தத் துறை மிக நெருக்கடியானது. பல குழுக்கள் image-to-3D, video world models, மற்றும் simulation-friendly generative systems மீது பணியாற்றுகின்றன. மிஞ்ச வேண்டும் என்றால், ஒரு முறையே அழகான demos மட்டும் அல்ல, இயக்கத்தின் போது நிலையான scene quality-யையும் காட்ட வேண்டும்.

ரோபோட்டிக்ஸ்தான் உடனடி பயன்பாடு ஏன்

Isaac Sim போன்ற physics engines-க்கு நேரடி export path இருப்பது அறிக்கையின் மிக முக்கியமான விவரங்களில் ஒன்று. இது என்வீடியா visualization அல்லது virtual tours-க்கான content generation-இல் மட்டும் ஆர்வம் கொண்டிருக்கவில்லை என்பதைக் காட்டுகிறது. இலக்கு embodied AI.

ரோபோ பயிற்சியில் பெரும்பாலும் data bottleneck உள்ளது. உண்மையான உலக தரவை சேகரிப்பது செலவானது, கைமுறையாக simulation சூழல்களை உருவாக்குவது நேரம் எடுக்கும். ஒரே புகைப்படத்திலிருந்து plausible, explored செய்யக்கூடிய 3D இடங்களை உருவாக்கும் ஒரு system, குறிப்பாக navigation அல்லது interaction tasks-க்கு தேவையான environmental diversity-யை விரைவாகப் பெருக்க உதவலாம்.

நடைமுறையில், இதனால் developers sparse visual references-இலிருந்து தொடங்கி, அவற்றை விரைவாக பயனுள்ள simulation scenes-ஆக விரிவாக்க முடியும். இது real-world validation-ஐ மாற்றாது, ஆனால் pretraining மற்றும் testing pipeline-ஐ விரிவுபடுத்தும்.

இது என்னைத் தீர்க்கிறது, என்னைத் தீர்க்கவில்லை

Lyra 2.0 ஒரு உண்மையான தொழில்நுட்ப தடையைச் சமாளிக்கிறது, ஆனால் இதை முழுமையான physical realism என்று குழப்பக் கூடாது. ஒத்திசைவான scene உருவாக்குவது ஒன்று. geometry, materials, dynamics, மற்றும் object affordances எல்லாம் robust transfer-க்கு போதுமான அளவு துல்லியமாக இருக்கும் scene-ஐ உருவாக்குவது வேறு.

simulation மனிதர்களுக்கு பயனுள்ளதாக இருப்பது, அதில் கற்ற நடத்தைகள் நிஜ உலகில் நிலைத்திருக்கும் வரையில்தான். சிறந்த visual coherence கூட தானாகவே பயனுள்ள physics அல்லது சரியான object interaction-ஐ உறுதி செய்யாது. என்வீடியாவின் அறிக்கை இதை மறைமுகமாக ஒப்புக்கொள்கிறது; physics engines-க்கு export செய்வதை வலியுறுத்துவதால், Lyra-வின் output ஒரு பரந்த simulation stack-இன் ஒரு பகுதி மட்டுமே, முழுமையான தீர்வு அல்ல என்பதைக் காட்டுகிறது.

அளவுபடுத்தக்கூடிய world generation-ஐ நோக்கி ஒரு படி

அப்படியிருந்தும், இந்த வேலை குறிப்பிடத்தக்கது; ஏனெனில் இது field-ஐ robot training worlds உருவாக்குவதற்கான மேலும் scalable வழிக்குத் தள்ளுகிறது. long-path coherence, explicit geometry recall, மற்றும் drift-aware training ஆகியவற்றின் சேர்க்கை முந்தைய systems-ஐ கட்டுப்படுத்திய அதே சிக்கல்களைச் சமாளிக்கிறது. இப்பயன்கள் பரவலான பயன்பாட்டிலும் நிலைத்திருந்தால், Lyra 2.0 robotics development-இன் மறைந்த செலவுகளில் ஒன்றான போதுமான உலகங்களை உருவாக்குவதை குறைக்க உதவலாம்.

அதுதான் ஆழமான முக்கியத்துவம். Robotics progress என்பது better policies மற்றும் larger models பற்றியது மட்டுமல்ல. அது better environments பற்றியதும்கூட. ஒரு robot தான் காணும் உலகங்களிலிருந்தே கற்றுக்கொள்ள முடியும், அந்த உலகங்களை நன்றாக உருவாக்குவது தானாகவே அதிக முக்கியத்துவம் பெறும் AI பிரச்சினையாக மாறி வருகிறது.

இந்த கட்டுரை The Decoder-ன் செய்தியை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

என்வீடியாவின் Lyra 2.0 ஒரே புகைப்படத்தை நடக்கக்கூடிய ரோபோ பயிற்சி உலகங்களாக மாற்ற இலக்கிடுகிறது