AI వీడియో ఇప్పుడు మరింత నమ్మశక్యంగా కనిపిస్తోంది, కానీ తప్పనిసరిగా మరింత బుద్ధిమంతంగా కాదు
AI వీడియో వ్యవస్థల తాజా తరం, మునుపటి మోడళ్ల కంటే మెరుగైన కదలిక, బలమైన లైటింగ్, మరియు మరింత వాస్తవికమైన టెక్స్చర్లతో, ఇంకా మెరుగ్గా ఉన్న క్లిప్లను రూపొందించగలదు. కానీ Tsinghua University పరిశోధకులు ప్రతిపాదించిన ఒక కొత్త బెంచ్మార్క్, దృశ్య నాణ్యత ఒక లోతైన పరిమితిని కప్పిపుచ్చుతోందని వాదిస్తోంది: అనేక వ్యవస్థలు ఇంకా ప్రపంచం ఎలా పనిచేయాలో అర్థం చేసుకోలేకపోతున్నాయి.
WorldReasonBench అని పిలిచే ఈ బెంచ్మార్క్, ఒక మోడల్ ఒక సన్నివేశాన్ని భౌతికంగా, సామాజికంగా, తార్కికంగా, మరియు సమాచారపరంగా నమ్మశక్యంగా ఉండే విధంగా కొనసాగించగలదా అనే దాన్ని కొలవడానికి రూపొందించబడింది. ఇది ఒక వీడియో కేవలం బాగుందా అనే ప్రశ్నకు భిన్నమైనది. పరిశోధకుల రూపకల్పనలో, రూపంలో ఉన్న వాస్తవికత అనేది ఆలోచనలో ఉన్న వాస్తవికతతో సమానం కాదు.
ఈ తేడా ముఖ్యమైనది, ఎందుకంటే జనరేటివ్ వీడియోలోని అనేక ముఖ్య ఉదాహరణలు, మొదటి చూపులో శైలి మరియు ఏకరూపత ఆధారంగా మాత్రమే నిర్ణయించబడుతాయి. ఒక క్లిప్ సినిమా లాగా, సాఫీగా కనిపించవచ్చు, కానీ గురుత్వాకర్షణ, వస్తువుల ప్రవర్తన, మానవ పరస్పర చర్య, లేదా కారణం-ఫలితాల సాధారణ అంచనాలను ఉల్లంఘించవచ్చు. WorldReasonBench ఖచ్చితంగా ఆ ఖాళీని బయటపెట్టడానికి రూపొందించబడింది.
ఈ బెంచ్మార్క్ ప్రపంచ అవగాహనను ఎలా పరీక్షిస్తుంది
చిత్ర నాణ్యతకు మార్కులు వేయడం బదులు, ఈ బెంచ్మార్క్ ఒక సన్నివేశం నుంచి ప్రారంభమై, దాన్ని అర్థవంతంగా కొనసాగించమని మోడల్ను కోరుతుంది. మూల వ్యాసం ఒక సరళ ఉదాహరణను చూపిస్తుంది: ఒక కొమ్మపై ఉన్న ఆపిల్, తరువాత దాన్ని పడేయమనే ఆదేశం. ఒక వ్యవస్థ అందమైన క్రమాన్ని రూపొందించగలదు, కానీ ఆపిల్ పైకి కదిలితే, బెలూన్లా ప్రవర్తిస్తే, లేదా నమ్మశక్యం కాని విధంగా పడితే, అది పనిలో విఫలమవుతుంది.
ఈ బెంచ్మార్క్ వేరు చేయడానికి ప్రయత్నిస్తున్న ప్రధాన సమస్య ఇదే. ఒక మెరుగైన అవుట్పుట్ సంప్రదాయ సౌందర్య ప్రమాణాల్లో మంచి స్కోరు సాధించవచ్చు, కానీ సంఘటన యొక్క తర్కంలో విఫలమవుతుంది. అందుకే WorldReasonBench మూల్యాంకనాన్ని నాలుగు తర్క విభాగాలు మరియు 22 ఉపవర్గాలుగా విడగొడుతుంది.
- ప్రపంచ జ్ఞానం, ఇందులో భౌతిక శాస్త్రం, వాతావరణం, మరియు సాంస్కృతిక నిబంధనలు ఉన్నాయి
- మనిషి కేంద్రిత సన్నివేశాలు, ఉదాహరణకు వస్తువులను చేతితో నిర్వహించడం మరియు సామాజిక పరస్పర చర్య
- తార్కిక తర్కం, గణితం, జ్యామితి, మరియు శాస్త్రీయ ప్రయోగాలు సహా
- సమాచార ఆధారిత తర్కం, డేటా మరియు డయాగ్రాములను చదవడం వంటి అంశాలు
మూల పదార్థం ప్రకారం, ఈ బెంచ్మార్క్లో సుమారు 400 పరీక్ష కేసులు ఉన్నాయి. పరిశోధకులు దీనితో పాటు WorldRewardBench ను కూడా జత చేశారు, ఇది శిక్షణ పొందిన అనోటేటర్లు ర్యాంక్ చేసిన సుమారు 6,000 వీడియో పోలికల ప్రాధాన్యత డేటాసెట్. ఆ రెండో డేటాసెట్, మోడళ్లను కేవలం సారాంశ స్కోరింగ్ నియమాలపై కాకుండా, ఒకదానితో ఒకటి పోల్చడానికి సహాయపడేలా రూపొందించబడింది.
నమ్మశక్యత కోసం రెండు దశల స్కోరింగ్ వ్యవస్థ
మూల్యాంకన ప్రక్రియ రెండు పొరలను ఉపయోగిస్తుంది. మొదట, ప్రక్రియ-సజాగ్రత కలిగిన విధానం నిర్మిత ప్రశ్నలను అడిగి, వీడియో సరైన చివరి స్థితికి చేరిందా, మరియు దానికి నమ్మశక్యమైన విధంగా చేరిందా అని నిర్ణయిస్తుంది. తరువాత రెండో దశలో మూడు విస్తృత లక్షణాలను రేటింగ్ చేస్తుంది: తర్క నాణ్యత, కాలక్రమ స్థిరత్వం, మరియు దృశ్య సౌందర్యం.
ఈ రూపకల్పన గమనించదగినది, ఎందుకంటే ఇది ప్రదర్శన నాణ్యతను విస్మరించదు. బదులుగా, దాన్ని సరైన స్థానంలో ఉంచుతుంది. ఉపయోగకరమైన వీడియో మోడల్ దృశ్యపరంగా నమ్మశక్యంగా ఉండాల్సిందే అని ఈ బెంచ్మార్క్ అంగీకరిస్తుంది, కానీ సౌందర్యాన్ని ఫలితంలోని ఒక భాగంగా మాత్రమే చూస్తుంది, మొత్తం కథగా కాదు.
ఈ రంగానికి ఇది ఒక ముఖ్యమైన మార్పు. చిత్రం మరియు వీడియో జనరేషన్లో, పురోగతిని తరచుగా చూడటానికి సులభం కానీ ఆడిట్ చేయడానికి కష్టం అయిన డెమోల ద్వారా తెలియజేస్తారు. ఉపరితల నాణ్యతకంటే పరిణామాలపై కేంద్రీకృతమైన బెంచ్మార్క్ మరింత కఠినమైన ప్రమాణాన్ని సృష్టిస్తుంది, ముఖ్యంగా రూపొందించిన వీడియో సూచనలు, ప్రయోగాలు, డయాగ్రామ్లు, లేదా నిజ జీవిత సంఘటనలను చూపించాల్సిన సందర్భాల్లో.
వాణిజ్య వ్యవస్థలు ముందున్నాయి, కానీ ఏదీ పూర్తిస్థాయి నైపుణ్యానికి దగ్గరగా లేదు
పరిశోధకులు ఐదు వాణిజ్య వ్యవస్థలు మరియు ఆరు ఓపెన్-సోర్స్ మోడళ్ళను పరీక్షించారు. వాణిజ్య సమూహంలో Sora 2, Kling, Wan 2.6, Seedance 2.0, మరియు Veo 3.1-Fast ఉన్నాయి. ఓపెన్-సోర్స్ సమూహంలో LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, మరియు LongCat-Video ఉన్నాయి.
బెంచ్మార్క్ యొక్క ప్రధాన తర్క మెట్రిక్పై, వాణిజ్య మోడళ్ళు చాలా మెరుగ్గా ప్రదర్శించాయి. మూలం ప్రకారం, అవి ఓపెన్-సోర్స్ వ్యవస్థలు సాధించిన స్కోర్లకు సుమారు రెండింతలు సాధించాయి, మరియు రెండు సమూహాల మధ్య గణాంకపరమైన ఓవర్ల్యాప్ లేదు. ఈ కనుగొనడం, పనులకు రూపం కంటే ఎక్కువ అవసరమైనప్పుడు, అత్యంత సామర్థ్యవంతమైన స్వంత మోడళ్ళు ఇంకా స్పష్టమైన ఆధిక్యంలో ఉన్నాయని సూచిస్తుంది.
అయినా, విస్తృతమైన తీరుమానం వాణిజ్య వ్యవస్థలు వీడియో తర్కాన్ని పరిష్కరించేశాయన్నది కాదు. వ్యాసం ప్రకారం, పరీక్షించిన ప్రతి మోడల్కు కూడా లాజిక్ ఇంకా అడ్డుపడుతోంది. పడిపోతున్న డొమినోలు, ఒక క్లా మెషిన్, మరియు ఒక సరళమైన సర్క్యూట్ వంటి ఉదాహరణలే లోపాలను బయటపెట్టడానికి సరిపోయాయి. మరో మాటలో చెప్పాలంటే, మెరుగైన ఉత్పత్తులు ఉన్నాయి, కానీ బలమైన ప్రపంచ అవగాహన ఇంకా అన్ని చోట్లా లేదు.
ఇది ముఖ్యమైన ఫలితం, ఎందుకంటే ఇది జనరేటివ్ AIలో ఒక సాధారణ ఊహకు వ్యతిరేకంగా ఉంది: మరింత వాస్తవిక అవుట్పుట్లు మరింత లోతైన సామర్థ్యాన్ని సూచిస్తాయని. WorldReasonBench దానికి విరుద్ధం తరచుగా నిజమవుతుందని సూచిస్తోంది. మోడళ్ళు శైలిలో మెరుగుపడుతున్న కొద్దీ, వాటి మిగిలిన వైఫల్యాలను సాధారణ వీక్షకులు గమనించడం మరింత కష్టమవుతుంది, ముఖ్యంగా ఆ వైఫల్యాలు ప్రాయోగిక సందర్భాల్లో ముఖ్యమైనప్పుడు.
బెంచ్మార్క్ ర్యాంకింగ్స్ను దాటి ఇది ఎందుకు ముఖ్యం
AI వీడియో టూల్స్ను కేవలం వినోద ఇంజిన్లుగా కాకుండా, విద్య, డిజైన్, సిమ్యులేషన్, కమ్యూనికేషన్, మరియు ఆటోమేటెడ్ కంటెంట్ ఉత్పత్తిని eventually మద్దతు ఇవ్వగల వ్యవస్థలుగా కూడా అంచనా వేస్తున్న సమయంలో ఈ బెంచ్మార్క్ వచ్చింది. అలాంటి సందర్భాల్లో, నమ్మశక్యత ఐచ్ఛికం కాదు. కదలిక, కొలత, లేదా పరస్పర చర్యకు అందమైన కానీ తప్పైన చిత్రణను ఇచ్చే మోడల్ కేవలం అసంపూర్ణం కాదు. అది తప్పుదోవ పట్టించే అవకాశం కూడా ఉంది.
కాబట్టి WorldReasonBench బహుళమోడల్ AIలోని విస్తృత సవాలును సూచిస్తోంది. వ్యవస్థలు సాధారణ భౌతిక ప్రవర్తన లేదా ప్రాథమిక తార్కిక నిర్మాణాన్ని నమ్మకంగా ప్రతినిధ్యం వహించలేకపోతే, మెరుగైన రెండరింగ్ మాత్రమే వాటిని నమ్మదగినవిగా చేయదు. ఈ పరిశోధన దృశ్య నాణ్యత ముఖ్యముకాదని వాదించదు. అది రంగం తర్కంతో పోలిస్తే దానికి చాలా ఎక్కువ విలువ ఇచ్చిందని వాదిస్తుంది.
అందువల్ల దాని ఖచ్చితమైన ర్యాంకింగ్స్ కాలంతో మారినప్పటికీ, ఈ బెంచ్మార్క్ ఉపయోగకరంగానే ఉంటుంది. ఇది వీడియో జనరేషన్కు మరింత కఠినమైన ప్రశ్నను నిర్వచిస్తుంది: క్లిప్ నిజంగా కనిపిస్తుందా అనేది కాదు, అది నిజమైన ప్రపంచానికి చెందినదిగా ప్రవర్తిస్తుందా అనేదే.
ప్రస్తుతం, సమాధానం ఉత్తమంగా చూసినా మిశ్రమంగానే ఉంది. ముందున్న వాణిజ్య వ్యవస్థలు స్పష్టంగా ముందున్నాయి, కానీ బెంచ్మార్క్ యొక్క కేంద్ర సందేశం ఏ లీడర్బోర్డ్ ఫలితానికన్నా పదునైనది. AI వీడియో ఇప్పుడు ఆకట్టుకునే సన్నివేశాలను రూపొందించగలదు. అది ఇంకా తాను సృష్టించే సన్నివేశాలను అర్థం చేసుకోవడంలో ఇబ్బంది పడుతోంది.
ఈ వ్యాసం The Decoder ద్వారా వచ్చిన రిపోర్టింగ్పై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.
Originally published on the-decoder.com


