ఒక చిత్రంనుంచి నావిగేట్ చేయగల 3D ప్రపంచం వరకు

ఎన్‌వీడియా పరిశోధకులు Lyra 2.0ను పరిచయం చేశారు; ఇది ఒకే ఫోటో నుంచి పెద్ద, సుసంగతమైన 3D వాతావరణాలను సృష్టించడానికి రూపొందించిన వ్యవస్థ. ఈ సన్నివేశాలను real timeలో అన్వేషించవచ్చని, అలాగే Isaac Sim వంటి simulation ప్లాట్‌ఫారమ్‌లకు export చేయవచ్చని సంస్థ చెబుతోంది; అక్కడ వాటిని robotics training కోసం ఉపయోగించవచ్చు.

ఈ ఆలోచన ధైర్యవంతమైనదే, కానీ roboticsలో ఆధునిక AIకి ఉన్న ఒక ప్రధాన సమస్యకు బాగా సరిపోతుంది: simulationలో agents‌ను శిక్షణ ఇవ్వడం భౌతిక ప్రపంచంలో మాత్రమే శిక్షణ ఇవ్వడంకంటే చాలా సులభం, తక్కువ ఖర్చు, మరియు సురక్షితం. అయితే ఉపయోగకరమైన simulation ఇంకా పెద్ద, స్థిరమైన, మరియు తగినంత వాస్తవికమైన వాతావరణాలను నిర్మించడంపైనే ఆధారపడి ఉంటుంది. ఒకే చిత్రం దశాబ్దాల మీటర్ల వరకు విస్తరించే సుసంగతమైన సన్నివేశానికి ఆరంభ బిందువుగా పనిచేస్తే, simulation content సృష్టి ఖర్చు గణనీయంగా తగ్గవచ్చు.

నివేదిక ప్రకారం, Lyra 2.0 సుమారు 90 మీటర్ల పరిధి ఉన్న సన్నివేశాలను సృష్టించగలదు. కానీ కేవలం పరిమాణం కంటే ముఖ్యమైనది, మోడల్ మునుపటి పద్ధతులలో ఉన్న రెండు సాధారణ బలహీనతలను పరిష్కరిస్తుందన్న వాదన: ఇది ఇప్పటికే సృష్టించినదాన్ని మర్చిపోదు, మరియు చిన్న దృశ్యపరమైన లోపాలు పెరిగి పెద్ద వక్రీకరణలుగా మారకుండా నిలువరిస్తుంది.

లాంగ్-పాత్ 3D జనరేషన్ ఎందుకు కష్టం

ప్రస్తుత 3D scene generation AI వ్యవస్థలు, virtual camera తన ప్రారంభ బిందువునుంచి మరింత దూరంగా వెళ్లినప్పుడు తరచూ క్షీణిస్తాయి. రంగులు మారిపోతాయి, geometry మారుతుంది, మరియు వాతావరణం సుసంగతిని కోల్పోతుంది. camera తర్వాత ఇప్పటికే చూసిన ప్రాంతానికి తిరిగి వస్తే, model ఆ ప్రదేశాన్ని మునుపటి continuityని కాపాడకుండా దాదాపు మళ్లీ సృష్టించవచ్చు.

రోబోటిక్స్‌కు, ఇవి కేవలం దృశ్యపరమైన తప్పులు కావు. అన్వేషణ సమయంలో స్వల్పంగా రూపం మార్చుకుంటూ ఉండే simulation వాతావరణం, స్థిరమైన స్థల నిర్మాణంపై ఆధారపడే embodied systems training‌కు బలహీనమైన పునాది. ప్రపంచమే స్థిరంగా లేకపోతే navigation, manipulation, మరియు planning అన్నీ తక్కువ నమ్మకంగా మారతాయి.

అందుకే scene coherence novelty కంటే ముఖ్యమైనది. ఉపయోగకరమైన training world‌కు, ఒక agent అది కేవలం possible images ప్రవాహం కాకుండా ఒక స్థలంలా దానిలోంచి నడవగలిగేంత స్థిరత్వం ఉండాలి.

Lyra 2.0 సమస్యను ఎలా పరిష్కరించేందుకు ప్రయత్నిస్తుంది

నివేదిక ప్రకారం, Lyra 2.0 ప్రతి generated frame కోసం 3D geometryని నిల్వ చేస్తుంది. virtual camera ముందే చూసిన ప్రాంతానికి తిరిగి వచ్చినప్పుడు, సిస్టమ్ ఆ పాత frames‌ను తిరిగి తెచ్చి, వాటి spatial information‌ను reference materialగా ఉపయోగిస్తుంది. image synthesis ఇంకా video model ద్వారా జరుగుతుంది, కానీ నిల్వ చేసిన geometry orientation‌ను కాపాడి continuityని నిలుపుకోవడమే లక్ష్యం.

ఈ రూపకల్పన మొదటి ప్రధాన బలహీనతైన మరచిపోవడాన్ని లక్ష్యంగా తీసుకుంది. ఇప్పటికే చూసిన ప్రాంతాలను stored geometry ద్వారా మళ్లీ గుర్తించి spatially re-ground చేయగలిగితే, సృష్టించిన వాతావరణం పొడవైన trajectories అంతటా మరింత సుసంగతంగా ఉంటుంది.

రెండవ సమస్య drift, అంటే చిన్న generation లోపాలు దశలవారీగా కూడికైపోవడం. నివేదిక ప్రకారం, ఎన్‌వీడియా పరిష్కారం modelని దాని స్వంత లోపభూయిష్ట outputs‌తో శిక్షణ ఇవ్వడం, తద్వారా degradation‌ను కేవలం అనుసరించకుండా గుర్తించి సరిచేయడం నేర్చుకుంటుంది. ఇది ప్రాయోగిక వ్యూహం. generation శుభ్రంగా ఉంటుందని ఊహించడంకన్నా, training process modelను అది సృష్టించే noise‌కు పరిచయం చేస్తుంది.

Benchmark దావాలు మరియు పోటీ సందర్భం

రెండు datasetsపై benchmark పరీక్షల్లో GEN3C, Yume-1.5, మరియు CaM సహా ఆరు పోటీ విధానాలను Lyra 2.0 మించిందని ఎన్‌వీడియా చెబుతోంది. ఆ మూల్యాంకనాల పూర్తి వివరాలు నివేదికలో లేనందున, ఈ పోటీ దావాను పూర్తిస్థాయి సాంకేతిక పోలికగా కాకుండా ఒక సారాంశంగా పరిగణించాలి. అయినప్పటికీ, దీని ప్రాముఖ్యత స్పష్టంగా ఉంది: ఎన్‌వీడియా Lyra 2.0ను ప్రయోగశాల ఆసక్తిగా కాదు, దీర్ఘ-దూర scene generationలో ఒక state-of-the-art contenderగా చూపిస్తోంది.

ఈ framing ముఖ్యమైనది, ఎందుకంటే ఈ రంగం చాలా రద్దీగా ఉంది. అనేక బృందాలు image-to-3D, video world models, మరియు simulation-friendly generative systems‌పై పని చేస్తున్నాయి. ప్రత్యేకంగా కనిపించాలంటే, ఒక విధానం కేవలం ఆకట్టుకునే demosనే కాదు, కదలికల సమయంలో స్థిరమైన scene qualityని చూపించాలి.

రోబోటిక్స్ ఎందుకు తక్షణ వినియోగం

Isaac Sim వంటి physics engines‌కు నేరుగా export చేసే మార్గం నివేదికలోని అత్యంత ముఖ్యమైన వివరాలలో ఒకటి. ఇది ఎన్‌వీడియా కేవలం visualization లేదా virtual tours కోసం content generationలో ఆసక్తి చూపడం లేదని సూచిస్తుంది. లక్ష్యం embodied AI.

రోబో శిక్షణ తరచూ data bottleneckను ఎదుర్కొంటుంది. నిజ ప్రపంచ డేటాను సేకరించడం ఖరీదైనది, చేతితో simulation వాతావరణాలను నిర్మించడం సమయం తీసుకుంటుంది. ఒక ఫోటోనుంచి plausible, అన్వేషించగల 3D స్థలాలను సృష్టించే వ్యవస్థ, ముఖ్యంగా navigation లేదా interaction పనుల కోసం environmental diversityని వేగంగా పెంచడంలో సహాయపడుతుంది.

ప్రయోగాత్మకంగా, దీని వల్ల developers sparse visual referencesతో మొదలుపెట్టి, వాటిని వేగంగా ఉపయోగకరమైన simulation scenes‌గా విస్తరించవచ్చు. ఇది real-world validationను భర్తీ చేయదు, కానీ pretraining మరియు testing pipelineను విస్తరించగలదు.

ఇది ఏమి పరిష్కరిస్తుంది, ఏమి కాదు

Lyra 2.0 నిజమైన సాంకేతిక అడ్డంకిని పరిష్కరిస్తోంది, కానీ దీనిని పూర్తి భౌతిక వాస్తవికతగా భావించకూడదు. సుసంగతమైన sceneను సృష్టించడం ఒకటి. geometry, materials, dynamics, మరియు object affordances నిజమైన రోబోట్లకు robust transfer‌కు సరిపడా ఖచ్చితంగా ఉండే sceneను సృష్టించడం మరోటి.

simulation నిజ ప్రపంచంలో కూడా నిలిచే ప్రవర్తనలను నేర్పినప్పుడే విలువైనది. అద్భుతమైన visual coherence కూడా స్వయంగా ఉపయోగకరమైన physics లేదా సరైన object interactionను హామీ ఇవ్వదు. ఎన్‌వీడియా నివేదిక దీనిని పరోక్షంగా అంగీకరిస్తోంది, ఎందుకంటే ఇది physics engines‌కు export చేయడంపై దృష్టి పెడుతోంది; అంటే Lyra output పెద్ద simulation stackలోని ఒక భాగం మాత్రమే, పూర్తి పరిష్కారం కాదు.

పెరుగుతున్న world generation వైపు ఒక అడుగు

అయినా, ఈ పని ముఖ్యమైనది; ఎందుకంటే ఇది రంగాన్ని రోబో శిక్షణ ప్రపంచాలను నిర్మించడానికి మరింత scalable మార్గం వైపు తీసుకెళ్తుంది. long-path coherence, స్పష్టమైన geometry recall, మరియు drift-aware training కలయిక ముందు వ్యవస్థలను పరిమితం చేసిన సరిగ్గా అదే సమస్యలను ఎదుర్కొంటుంది. ఈ లాభాలు విస్తృత వినియోగంలోనూ నిలిస్తే, Lyra 2.0 robotics developmentలోని ఒక దాగిన ఖర్చు, అంటే నేర్చుకోవడానికి తగిన ప్రపంచాలను నిర్మించడం, తగ్గించడంలో సహాయపడుతుంది.

అదే లోతైన ప్రాముఖ్యత. Robotics progress కేవలం మెరుగైన policies మరియు పెద్ద models గురించే కాదు. అది మెరుగైన environments గురించీ. ఒక రోబో దానికి కనిపించే ప్రపంచాల నుంచే నేర్చుకోగలదు, మరియు ఆ ప్రపంచాలను బాగా రూపొందించడం మరింత ముఖ్యమైన AI సమస్యగా మారుతోంది.

ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com