Generative videoకి image qualityకి మించి కూడా realism సమస్య ఉంది
ఇటీవలి అనేక video world models prompt నుంచి striking clipsను తయారు చేయగలవు, కానీ వాటిలో ఒక core limitation ఇంకా ఉంది: అవి సృష్టించే ప్రపంచాలు చాలా సార్లు చిన్న భాగాల వరకే coherentగా ఉంటాయి. వీధులు అసాధ్యమైన ఆకారాల్లో వంగిపోతాయి, భవనాలు మారిపోతాయి, మరియు నగరంలోని కనిపించని భాగాలు వెంటనే కల్పించబడతాయి. Naver యొక్క Seoul World Model, లేదా SWM, గురించి ఉన్న supplied source text ఆసక్తికరంగా ఉంది, ఎందుకంటే అది ఆ సమస్యను మూలం నుంచే పట్టుకుంటుంది. ఒక AI systemను plausible cityని hallucinate చేయమని అడగడం బదులు, Naver generationను నిజమైన నగర geometry మరియు appearanceలో anchor చేస్తోంది.
సప్లై చేసిన వ్యాసం ప్రకారం, ఈ system Naver Map, South Korea యొక్క street-view service, నుండి 1.2 మిలియన్ panoramic imagesను ఉపయోగించి location-based videosను నిర్మిస్తుంది. వినియోగదారులు geographic coordinates, camera movement, మరియు text promptను ఇస్తారు, ఆపై model step-by-step generation కోసం దగ్గర్లోని street-view imagesను visual guidesగా retrieve చేస్తుంది.
నిజమైన geographyనే లక్ష్యం
ఈ article SWMను నిజమైన physical locationకు కట్టుబడి ఉన్న first world modelగా వివరిస్తుంది. ఇది ముఖ్యమైన తేడా. గత systems నిజమైన frame నుంచి ప్రారంభించవచ్చు లేదా real-world scenesను mimic చేయవచ్చు, కానీ generation camera మొదట చూసిన దాని కంటే దూరంగా వెళ్లిన వెంటనే actual city structureకు anchorగా ఉండవు. SWM ప్రత్యేకంగా ఆ driftను తగ్గించడానికి రూపొందించబడింది.
అది ముఖ్యం, ఎందుకంటే consistency అనేది impressive demosను reliable tools నుంచి వేరు చేసే అతిపెద్ద అడ్డంకులలో ఒకటి. route logic, building placement, లేదా scene continuityను నిలుపుకోలేని generated city వినోదాత్మకంగా ఉన్నప్పటికీ, పరిమితమైనదే. నిజమైన mapలో groundedగా ఉండే model simulation, planning, location-aware storytelling, లేదా geography కీలకమైన training environmentsలో ఉపయోగపడగలదు.
కష్టం ఏమిటంటే నగరాలు స్థిరంగా ఉండవు
సప్లై చేసిన text కూడా నిజమైన street data స్వంత technical challengesను ఎలా సృష్టిస్తుందో వివరిస్తుంది. Street-view panoramas snapshots మాత్రమే. అవి parked cars, pedestrians, మరియు నగరానికి చెందిన స్థిర representationలో భాగం కాని తాత్కాలిక objectsను capture చేస్తాయి. కాబట్టి system శాశ్వత నిర్మాణాలను తాత్కాలిక content నుంచి వేరు చేయాలి.
Article ప్రకారం, Naver యొక్క approach వివిధ సమయాల్లో తీసిన recordingsను విశ్లేషించడం, తద్వారా model buildings మరియు roadsను తక్కువకాల scene elements నుంచి విడదీయగలుగుతుంది. ఇది missing camera anglesను పూరించడానికి simulated videoను, మరింత పొడవైన generations కోసం route వెంట ఉన్న అదనపు street-view imagesను anchorsగా కూడా ఉపయోగిస్తుంది. మరో మాటలో, model కేవలం stored imageryను replay చేయడం లేదు. అది grounded కానీ flexible urban space representationను నిర్మించడానికి ప్రయత్నిస్తోంది.
Benchmarks ఒక practical gainను సూచిస్తున్నాయి
performance విషయంలో, సప్లై చేసిన report SWM visual quality మరియు temporal consistency రెండింటిలోను ప్రస్తుత ఆరు video world modelsను మించిందని చెబుతోంది. అదనపు training లేకుండానే Busan మరియు Ann Arbor సహా unfamiliar citiesకు కూడా system generalize అయిందని అది పేర్కొంటుంది.
ఈ రెండు claims కలిపి ప్రాముఖ్యమైనవి. మెరుగైన quality మాత్రమే cosmeticగా ఉండవచ్చు. మెరుగైన consistency మాత్రమే training environment దాటి వెళ్లడానికి ఇంకా చాలా brittleగా ఉండవచ్చు. ఇతర నగరాలకు generalization ఈ method Seoulను memorize చేసిందని మాత్రమే ఉపయోగపడదని సూచిస్తుంది. Article సూచన ఏమిటంటే, నిజమైన geometryలో generationను grounding చేయడం broader design principleగా మారవచ్చు, ఒక్కసారి చేసే local demo మాత్రమే కాదు.
ఇది data advantage కథ కూడా
Naverను తరచుగా South Korea యొక్క Googleగా వర్ణిస్తారు, మరియు ఇక్కడ ఆ పోలిక ముఖ్యమైనది, ఎందుకంటే model బలం పెద్ద proprietary mapping archiveకు ఉన్న accessపై ఆధారపడి ఉంటుంది. కంపెనీ యొక్క dominant local search మరియు mapping ecosystem, అనేక AI labs వద్ద లేని ఒక data assetను ఇస్తుంది. SWM generative-model researchను dense, owned, real-world visual dataతో జత చేస్తే ఏమి జరుగుతుందో చూపిస్తుంది.
ఇది AI competitionలో మళ్లీ మళ్లీ కనిపించే themeగా మారవచ్చు. అత్యంత శక్తివంతమైన systems అన్నీ అత్యంత పెద్ద general modelతో మాత్రమే ఉండవు. అవి maps, software repositories, medical records, లేదా industrial logs వంటి privileged domain-specific dataతో అనుసంధానమైనవిగా ఉండవచ్చు.
Product implications noveltyకి మించి ఉన్నాయి
సప్లై చేసిన article ప్రకారం, users text promptsతో generated scenesను మార్చుకోవచ్చు; అందులో burning cars లేదా skylineలో giant monster వంటి dramatic additions కూడా ఉన్నాయి. ఇవి theatrical examples, కానీ underlying ambitionను వెల్లడిస్తాయి: ప్రపంచాన్ని భౌగోళికంగా credibleగా ఉండేంత realగా ఉంచి, దాని మీద generative freedomను అనుమతించడం.
ఆ సమతుల్యత simulation, local advertising, urban visualization, robotics training, navigation interfaces, మరియు entertainment కోసం కీలకంగా ఉండవచ్చు. ఒక believable world model అంటే కేవలం prettier video కాదు. అది spatial trust గురించి. AI system వస్తువులు ఎక్కడ ఉన్నాయో నిలుపుకోగలిగితే, మరింత applications viable అవుతాయి.
విస్తృతమైన పాఠం సులభం
గత రెండు సంవత్సరాలలో, generative AI చాలాసార్లు hallucinationను text problemగా, consistencyను style problemగా చూసింది. Naver యొక్క Seoul World Model అవి world-modeling problems కూడా అని సూచిస్తోంది. systemకు తాను ఏ నగరంలో ఉందో తెలియకపోతే, మూల మలుపు దాటి ఏమి వస్తుందో విశ్వసనీయంగా చూపించలదు.
Generationను నిజమైన coordinates మరియు నిజమైన urban imageryకు అనుసంధానించడం ద్వారా, Naver synthetic video కోసం మరింత కఠినమైన standardను ప్రతిపాదిస్తోంది: కేవలం plausible కాకుండా, place-aware కూడా. ఈ approach కొనసాగి scale అయితే, ఇది generative mediaలో free-form invention నుండి grounded simulation వైపు ఒక ముఖ్యమైన మార్పును సూచించవచ్చు. ఇది hallucinationsను ఆపదు. అవి skylineలో దాచడం కష్టతరం చేస్తుంది.
ఈ article The Decoder నివేదికపై ఆధారపడింది. అసలు article చదవండి.
Originally published on the-decoder.com



