ஒரு படத்திலிருந்து வழிசெலுத்தக்கூடிய 3D உலகம் வரை
என்வீடியா ஆராய்ச்சியாளர்கள் Lyra 2.0-ஐ வெளியிட்டுள்ளனர்; இது ஒரே புகைப்படத்திலிருந்து பெரிய, ஒத்திசைவான 3D சூழல்களை உருவாக்க வடிவமைக்கப்பட்ட ஒரு அமைப்பு. உருவான காட்சிகளை real time-இல் ஆராயலாம், மேலும் Isaac Sim போன்ற simulation தளங்களுக்கு export செய்யலாம்; அங்கு அவை robotics training-க்கு பயன்படுத்தப்படலாம் என நிறுவனம் கூறுகிறது.
இந்த முன்மொழிவு மிக உயர்வானது, ஆனால் robotics-இல் modern AI-யின் மையச் சிக்கலுடன் நன்றாக பொருந்துகிறது: simulation-இல் agents-ஐ பயிற்றுவிப்பது physical உலகில் பயிற்றுவிப்பதைவிட மிகவும் எளிது, மலிவு, மற்றும் பாதுகாப்பானது. ஆனால் பயனுள்ள simulation இன்னும் பெரிய, நிலையான, மற்றும் பொருத்தமான அளவுக்கு realistic-ஆக இருக்கும் சூழல்களை உருவாக்குவதிலேயே சார்ந்திருக்கிறது. ஒரு படமே பல மீட்டர்கள் நீளும் ஒத்திசைவான காட்சியைத் தொடக்கமாகக் கொள்ள முடிந்தால், அது simulation content உருவாக்கச் செலவை கணிசமாக குறைக்கலாம்.
அறிக்கையின்படி, Lyra 2.0 சுமார் 90 மீட்டர் நீளமுள்ள காட்சிகளை உருவாக்க முடியும். ஆனால் வெறும் அளவைவிட முக்கியமானது, முந்தைய முறைகளின் இரண்டு பொதுவான பலவீனங்களை model தீர்க்கிறது என்ற கூற்று: அது ஏற்கனவே உருவாக்கியதை மறப்பதில்லை, மேலும் சிறிய visual பிழைகள் கூடிவந்து பெரிய distortion-களாக மாறுவதையும் தடுக்கிறது.
நீண்ட பாதை 3D உருவாக்கம் ஏன் கடினம்
தற்போதுள்ள 3D scene generation AI systems, virtual camera தனது ஆரம்ப இடத்திலிருந்து அதிக தூரம் சென்றால் often degrade ஆகிவிடுகின்றன. நிறங்கள் மாறுகின்றன, geometry மாற்றமடைகிறது, மற்றும் சூழல் ஒத்திசைவைக் கெடுக்கிறது. camera பின்னர் ஏற்கனவே பார்த்த இடத்திற்குத் திரும்பினால், model அந்த இடத்தை முந்தைய தொடர்ச்சியைப் பாதுகாப்பதற்குப் பதிலாக மீண்டும் கற்பனை செய்துவிடலாம்.
ரோபோட்டிக்ஸிற்காக, இத்தகைய தோல்விகள் cosmetic அல்ல. தேடுதல் போது தன்னைச் சற்று மாற்றிக்கொள்கிற simulation சூழல், நிலையான spatial structure-ஐ நம்பும் embodied systems training-க்கு பலமற்ற அடித்தளமாகும். உலகமே நிலைத்திருக்காவிட்டால், navigation, manipulation, மற்றும் planning அனைத்தும் குறைவாக நம்பகமாகின்றன.
அதனால் scene coherence novelty-ஐ விட முக்கியமானது. ஒரு பயனுள்ள training world-க்கு, agent அதில் ஒரு stream of plausible images அல்ல, ஒரு இடமாகவே நடக்கக்கூடிய அளவு consistency இருக்க வேண்டும்.




