Generative videoకి image qualityకి మించి కూడా realism సమస్య ఉంది

ఇటీవలి అనేక video world models prompt నుంచి striking clips‌ను తయారు చేయగలవు, కానీ వాటిలో ఒక core limitation ఇంకా ఉంది: అవి సృష్టించే ప్రపంచాలు చాలా సార్లు చిన్న భాగాల వరకే coherent‌గా ఉంటాయి. వీధులు అసాధ్యమైన ఆకారాల్లో వంగిపోతాయి, భవనాలు మారిపోతాయి, మరియు నగరంలోని కనిపించని భాగాలు వెంటనే కల్పించబడతాయి. Naver యొక్క Seoul World Model, లేదా SWM, గురించి ఉన్న supplied source text ఆసక్తికరంగా ఉంది, ఎందుకంటే అది ఆ సమస్యను మూలం నుంచే పట్టుకుంటుంది. ఒక AI system‌ను plausible cityని hallucinate చేయమని అడగడం బదులు, Naver generation‌ను నిజమైన నగర geometry మరియు appearance‌లో anchor చేస్తోంది.

సప్లై చేసిన వ్యాసం ప్రకారం, ఈ system Naver Map, South Korea యొక్క street-view service, నుండి 1.2 మిలియన్ panoramic images‌ను ఉపయోగించి location-based videos‌ను నిర్మిస్తుంది. వినియోగదారులు geographic coordinates, camera movement, మరియు text prompt‌ను ఇస్తారు, ఆపై model step-by-step generation కోసం దగ్గర్లోని street-view images‌ను visual guides‌గా retrieve చేస్తుంది.

నిజమైన geographyనే లక్ష్యం

ఈ article SWM‌ను నిజమైన physical location‌కు కట్టుబడి ఉన్న first world model‌గా వివరిస్తుంది. ఇది ముఖ్యమైన తేడా. గత systems నిజమైన frame నుంచి ప్రారంభించవచ్చు లేదా real-world scenes‌ను mimic చేయవచ్చు, కానీ generation camera మొదట చూసిన దాని కంటే దూరంగా వెళ్లిన వెంటనే actual city structure‌కు anchor‌గా ఉండవు. SWM ప్రత్యేకంగా ఆ drift‌ను తగ్గించడానికి రూపొందించబడింది.

అది ముఖ్యం, ఎందుకంటే consistency అనేది impressive demos‌ను reliable tools నుంచి వేరు చేసే అతిపెద్ద అడ్డంకులలో ఒకటి. route logic, building placement, లేదా scene continuityను నిలుపుకోలేని generated city వినోదాత్మకంగా ఉన్నప్పటికీ, పరిమితమైనదే. నిజమైన map‌లో grounded‌గా ఉండే model simulation, planning, location-aware storytelling, లేదా geography కీలకమైన training environments‌లో ఉపయోగపడగలదు.

కష్టం ఏమిటంటే నగరాలు స్థిరంగా ఉండవు

సప్లై చేసిన text కూడా నిజమైన street data స్వంత technical challenges‌ను ఎలా సృష్టిస్తుందో వివరిస్తుంది. Street-view panoramas snapshots మాత్రమే. అవి parked cars, pedestrians, మరియు నగరానికి చెందిన స్థిర representation‌లో భాగం కాని తాత్కాలిక objects‌ను capture చేస్తాయి. కాబట్టి system శాశ్వత నిర్మాణాలను తాత్కాలిక content‌ నుంచి వేరు చేయాలి.

Article ప్రకారం, Naver యొక్క approach వివిధ సమయాల్లో తీసిన recordings‌ను విశ్లేషించడం, తద్వారా model buildings మరియు roads‌ను తక్కువకాల scene elements‌ నుంచి విడదీయగలుగుతుంది. ఇది missing camera angles‌ను పూరించడానికి simulated video‌ను, మరింత పొడవైన generations కోసం route వెంట ఉన్న అదనపు street-view images‌ను anchors‌గా కూడా ఉపయోగిస్తుంది. మరో మాటలో, model కేవలం stored imagery‌ను replay చేయడం లేదు. అది grounded కానీ flexible urban space representation‌ను నిర్మించడానికి ప్రయత్నిస్తోంది.

Benchmarks ఒక practical gain‌ను సూచిస్తున్నాయి

performance విషయంలో, సప్లై చేసిన report SWM visual quality మరియు temporal consistency రెండింటిలోను ప్రస్తుత ఆరు video world models‌ను మించిందని చెబుతోంది. అదనపు training లేకుండానే Busan మరియు Ann Arbor సహా unfamiliar cities‌కు కూడా system generalize అయిందని అది పేర్కొంటుంది.

ఈ రెండు claims కలిపి ప్రాముఖ్యమైనవి. మెరుగైన quality మాత్రమే cosmetic‌గా ఉండవచ్చు. మెరుగైన consistency మాత్రమే training environment దాటి వెళ్లడానికి ఇంకా చాలా brittle‌గా ఉండవచ్చు. ఇతర నగరాలకు generalization ఈ method Seoul‌ను memorize చేసిందని మాత్రమే ఉపయోగపడదని సూచిస్తుంది. Article సూచన ఏమిటంటే, నిజమైన geometryలో generation‌ను grounding చేయడం broader design principle‌గా మారవచ్చు, ఒక్కసారి చేసే local demo మాత్రమే కాదు.

ఇది data advantage కథ కూడా

Naver‌ను తరచుగా South Korea యొక్క Google‌గా వర్ణిస్తారు, మరియు ఇక్కడ ఆ పోలిక ముఖ్యమైనది, ఎందుకంటే model బలం పెద్ద proprietary mapping archive‌కు ఉన్న access‌పై ఆధారపడి ఉంటుంది. కంపెనీ యొక్క dominant local search మరియు mapping ecosystem, అనేక AI labs వద్ద లేని ఒక data asset‌ను ఇస్తుంది. SWM generative-model research‌ను dense, owned, real-world visual data‌తో జత చేస్తే ఏమి జరుగుతుందో చూపిస్తుంది.

ఇది AI competition‌లో మళ్లీ మళ్లీ కనిపించే theme‌గా మారవచ్చు. అత్యంత శక్తివంతమైన systems అన్నీ అత్యంత పెద్ద general model‌తో మాత్రమే ఉండవు. అవి maps, software repositories, medical records, లేదా industrial logs వంటి privileged domain-specific data‌తో అనుసంధానమైనవిగా ఉండవచ్చు.

Product implications noveltyకి మించి ఉన్నాయి

సప్లై చేసిన article ప్రకారం, users text prompts‌తో generated scenes‌ను మార్చుకోవచ్చు; అందులో burning cars లేదా skyline‌లో giant monster వంటి dramatic additions కూడా ఉన్నాయి. ఇవి theatrical examples, కానీ underlying ambition‌ను వెల్లడిస్తాయి: ప్రపంచాన్ని భౌగోళికంగా credible‌గా ఉండేంత real‌గా ఉంచి, దాని మీద generative freedom‌ను అనుమతించడం.

ఆ సమతుల్యత simulation, local advertising, urban visualization, robotics training, navigation interfaces, మరియు entertainment కోసం కీలకంగా ఉండవచ్చు. ఒక believable world model అంటే కేవలం prettier video కాదు. అది spatial trust గురించి. AI system వస్తువులు ఎక్కడ ఉన్నాయో నిలుపుకోగలిగితే, మరింత applications viable అవుతాయి.

విస్తృతమైన పాఠం సులభం

గత రెండు సంవత్సరాలలో, generative AI చాలాసార్లు hallucination‌ను text problem‌గా, consistency‌ను style problem‌గా చూసింది. Naver యొక్క Seoul World Model అవి world-modeling problems కూడా అని సూచిస్తోంది. system‌కు తాను ఏ నగరంలో ఉందో తెలియకపోతే, మూల మలుపు దాటి ఏమి వస్తుందో విశ్వసనీయంగా చూపించలదు.

Generation‌ను నిజమైన coordinates మరియు నిజమైన urban imagery‌కు అనుసంధానించడం ద్వారా, Naver synthetic video కోసం మరింత కఠినమైన standard‌ను ప్రతిపాదిస్తోంది: కేవలం plausible కాకుండా, place-aware కూడా. ఈ approach కొనసాగి scale అయితే, ఇది generative media‌లో free-form invention నుండి grounded simulation వైపు ఒక ముఖ్యమైన మార్పును సూచించవచ్చు. ఇది hallucinations‌ను ఆపదు. అవి skylineలో దాచడం కష్టతరం చేస్తుంది.

ఈ article The Decoder నివేదికపై ఆధారపడింది. అసలు article చదవండి.

Originally published on the-decoder.com