AI వీడియో ఇప్పుడు మరింత నమ్మశక్యంగా కనిపిస్తోంది, కానీ తప్పనిసరిగా మరింత బుద్ధిమంతంగా కాదు

AI వీడియో వ్యవస్థల తాజా తరం, మునుపటి మోడళ్ల కంటే మెరుగైన కదలిక, బలమైన లైటింగ్, మరియు మరింత వాస్తవికమైన టెక్స్చర్లతో, ఇంకా మెరుగ్గా ఉన్న క్లిప్‌లను రూపొందించగలదు. కానీ Tsinghua University పరిశోధకులు ప్రతిపాదించిన ఒక కొత్త బెంచ్‌మార్క్, దృశ్య నాణ్యత ఒక లోతైన పరిమితిని కప్పిపుచ్చుతోందని వాదిస్తోంది: అనేక వ్యవస్థలు ఇంకా ప్రపంచం ఎలా పనిచేయాలో అర్థం చేసుకోలేకపోతున్నాయి.

WorldReasonBench అని పిలిచే ఈ బెంచ్‌మార్క్, ఒక మోడల్ ఒక సన్నివేశాన్ని భౌతికంగా, సామాజికంగా, తార్కికంగా, మరియు సమాచారపరంగా నమ్మశక్యంగా ఉండే విధంగా కొనసాగించగలదా అనే దాన్ని కొలవడానికి రూపొందించబడింది. ఇది ఒక వీడియో కేవలం బాగుందా అనే ప్రశ్నకు భిన్నమైనది. పరిశోధకుల రూపకల్పనలో, రూపంలో ఉన్న వాస్తవికత అనేది ఆలోచనలో ఉన్న వాస్తవికతతో సమానం కాదు.

ఈ తేడా ముఖ్యమైనది, ఎందుకంటే జనరేటివ్ వీడియోలోని అనేక ముఖ్య ఉదాహరణలు, మొదటి చూపులో శైలి మరియు ఏకరూపత ఆధారంగా మాత్రమే నిర్ణయించబడుతాయి. ఒక క్లిప్ సినిమా లాగా, సాఫీగా కనిపించవచ్చు, కానీ గురుత్వాకర్షణ, వస్తువుల ప్రవర్తన, మానవ పరస్పర చర్య, లేదా కారణం-ఫలితాల సాధారణ అంచనాలను ఉల్లంఘించవచ్చు. WorldReasonBench ఖచ్చితంగా ఆ ఖాళీని బయటపెట్టడానికి రూపొందించబడింది.

ఈ బెంచ్‌మార్క్ ప్రపంచ అవగాహనను ఎలా పరీక్షిస్తుంది

చిత్ర నాణ్యతకు మార్కులు వేయడం బదులు, ఈ బెంచ్‌మార్క్ ఒక సన్నివేశం నుంచి ప్రారంభమై, దాన్ని అర్థవంతంగా కొనసాగించమని మోడల్‌ను కోరుతుంది. మూల వ్యాసం ఒక సరళ ఉదాహరణను చూపిస్తుంది: ఒక కొమ్మపై ఉన్న ఆపిల్, తరువాత దాన్ని పడేయమనే ఆదేశం. ఒక వ్యవస్థ అందమైన క్రమాన్ని రూపొందించగలదు, కానీ ఆపిల్ పైకి కదిలితే, బెలూన్‌లా ప్రవర్తిస్తే, లేదా నమ్మశక్యం కాని విధంగా పడితే, అది పనిలో విఫలమవుతుంది.

ఈ బెంచ్‌మార్క్ వేరు చేయడానికి ప్రయత్నిస్తున్న ప్రధాన సమస్య ఇదే. ఒక మెరుగైన అవుట్‌పుట్ సంప్రదాయ సౌందర్య ప్రమాణాల్లో మంచి స్కోరు సాధించవచ్చు, కానీ సంఘటన యొక్క తర్కంలో విఫలమవుతుంది. అందుకే WorldReasonBench మూల్యాంకనాన్ని నాలుగు తర్క విభాగాలు మరియు 22 ఉపవర్గాలుగా విడగొడుతుంది.

  • ప్రపంచ జ్ఞానం, ఇందులో భౌతిక శాస్త్రం, వాతావరణం, మరియు సాంస్కృతిక నిబంధనలు ఉన్నాయి
  • మనిషి కేంద్రిత సన్నివేశాలు, ఉదాహరణకు వస్తువులను చేతితో నిర్వహించడం మరియు సామాజిక పరస్పర చర్య
  • తార్కిక తర్కం, గణితం, జ్యామితి, మరియు శాస్త్రీయ ప్రయోగాలు సహా
  • సమాచార ఆధారిత తర్కం, డేటా మరియు డయాగ్రాములను చదవడం వంటి అంశాలు

మూల పదార్థం ప్రకారం, ఈ బెంచ్‌మార్క్‌లో సుమారు 400 పరీక్ష కేసులు ఉన్నాయి. పరిశోధకులు దీనితో పాటు WorldRewardBench ను కూడా జత చేశారు, ఇది శిక్షణ పొందిన అనోటేటర్లు ర్యాంక్ చేసిన సుమారు 6,000 వీడియో పోలికల ప్రాధాన్యత డేటాసెట్. ఆ రెండో డేటాసెట్, మోడళ్లను కేవలం సారాంశ స్కోరింగ్ నియమాలపై కాకుండా, ఒకదానితో ఒకటి పోల్చడానికి సహాయపడేలా రూపొందించబడింది.

నమ్మశక్యత కోసం రెండు దశల స్కోరింగ్ వ్యవస్థ

మూల్యాంకన ప్రక్రియ రెండు పొరలను ఉపయోగిస్తుంది. మొదట, ప్రక్రియ-సజాగ్రత కలిగిన విధానం నిర్మిత ప్రశ్నలను అడిగి, వీడియో సరైన చివరి స్థితికి చేరిందా, మరియు దానికి నమ్మశక్యమైన విధంగా చేరిందా అని నిర్ణయిస్తుంది. తరువాత రెండో దశలో మూడు విస్తృత లక్షణాలను రేటింగ్ చేస్తుంది: తర్క నాణ్యత, కాలక్రమ స్థిరత్వం, మరియు దృశ్య సౌందర్యం.

ఈ రూపకల్పన గమనించదగినది, ఎందుకంటే ఇది ప్రదర్శన నాణ్యతను విస్మరించదు. బదులుగా, దాన్ని సరైన స్థానంలో ఉంచుతుంది. ఉపయోగకరమైన వీడియో మోడల్ దృశ్యపరంగా నమ్మశక్యంగా ఉండాల్సిందే అని ఈ బెంచ్‌మార్క్ అంగీకరిస్తుంది, కానీ సౌందర్యాన్ని ఫలితంలోని ఒక భాగంగా మాత్రమే చూస్తుంది, మొత్తం కథగా కాదు.

ఈ రంగానికి ఇది ఒక ముఖ్యమైన మార్పు. చిత్రం మరియు వీడియో జనరేషన్‌లో, పురోగతిని తరచుగా చూడటానికి సులభం కానీ ఆడిట్ చేయడానికి కష్టం అయిన డెమోల ద్వారా తెలియజేస్తారు. ఉపరితల నాణ్యతకంటే పరిణామాలపై కేంద్రీకృతమైన బెంచ్‌మార్క్ మరింత కఠినమైన ప్రమాణాన్ని సృష్టిస్తుంది, ముఖ్యంగా రూపొందించిన వీడియో సూచనలు, ప్రయోగాలు, డయాగ్రామ్‌లు, లేదా నిజ జీవిత సంఘటనలను చూపించాల్సిన సందర్భాల్లో.

వాణిజ్య వ్యవస్థలు ముందున్నాయి, కానీ ఏదీ పూర్తిస్థాయి నైపుణ్యానికి దగ్గరగా లేదు

పరిశోధకులు ఐదు వాణిజ్య వ్యవస్థలు మరియు ఆరు ఓపెన్-సోర్స్ మోడళ్ళను పరీక్షించారు. వాణిజ్య సమూహంలో Sora 2, Kling, Wan 2.6, Seedance 2.0, మరియు Veo 3.1-Fast ఉన్నాయి. ఓపెన్-సోర్స్ సమూహంలో LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, మరియు LongCat-Video ఉన్నాయి.

బెంచ్‌మార్క్ యొక్క ప్రధాన తర్క మెట్రిక్‌పై, వాణిజ్య మోడళ్ళు చాలా మెరుగ్గా ప్రదర్శించాయి. మూలం ప్రకారం, అవి ఓపెన్-సోర్స్ వ్యవస్థలు సాధించిన స్కోర్లకు సుమారు రెండింతలు సాధించాయి, మరియు రెండు సమూహాల మధ్య గణాంకపరమైన ఓవర్ల్యాప్ లేదు. ఈ కనుగొనడం, పనులకు రూపం కంటే ఎక్కువ అవసరమైనప్పుడు, అత్యంత సామర్థ్యవంతమైన స్వంత మోడళ్ళు ఇంకా స్పష్టమైన ఆధిక్యంలో ఉన్నాయని సూచిస్తుంది.

అయినా, విస్తృతమైన తీరుమానం వాణిజ్య వ్యవస్థలు వీడియో తర్కాన్ని పరిష్కరించేశాయన్నది కాదు. వ్యాసం ప్రకారం, పరీక్షించిన ప్రతి మోడల్‌కు కూడా లాజిక్ ఇంకా అడ్డుపడుతోంది. పడిపోతున్న డొమినోలు, ఒక క్లా మెషిన్, మరియు ఒక సరళమైన సర్క్యూట్ వంటి ఉదాహరణలే లోపాలను బయటపెట్టడానికి సరిపోయాయి. మరో మాటలో చెప్పాలంటే, మెరుగైన ఉత్పత్తులు ఉన్నాయి, కానీ బలమైన ప్రపంచ అవగాహన ఇంకా అన్ని చోట్లా లేదు.

ఇది ముఖ్యమైన ఫలితం, ఎందుకంటే ఇది జనరేటివ్ AIలో ఒక సాధారణ ఊహకు వ్యతిరేకంగా ఉంది: మరింత వాస్తవిక అవుట్‌పుట్లు మరింత లోతైన సామర్థ్యాన్ని సూచిస్తాయని. WorldReasonBench దానికి విరుద్ధం తరచుగా నిజమవుతుందని సూచిస్తోంది. మోడళ్ళు శైలిలో మెరుగుపడుతున్న కొద్దీ, వాటి మిగిలిన వైఫల్యాలను సాధారణ వీక్షకులు గమనించడం మరింత కష్టమవుతుంది, ముఖ్యంగా ఆ వైఫల్యాలు ప్రాయోగిక సందర్భాల్లో ముఖ్యమైనప్పుడు.

బెంచ్‌మార్క్ ర్యాంకింగ్స్‌ను దాటి ఇది ఎందుకు ముఖ్యం

AI వీడియో టూల్స్‌ను కేవలం వినోద ఇంజిన్లుగా కాకుండా, విద్య, డిజైన్, సిమ్యులేషన్, కమ్యూనికేషన్, మరియు ఆటోమేటెడ్ కంటెంట్ ఉత్పత్తిని eventually మద్దతు ఇవ్వగల వ్యవస్థలుగా కూడా అంచనా వేస్తున్న సమయంలో ఈ బెంచ్‌మార్క్ వచ్చింది. అలాంటి సందర్భాల్లో, నమ్మశక్యత ఐచ్ఛికం కాదు. కదలిక, కొలత, లేదా పరస్పర చర్యకు అందమైన కానీ తప్పైన చిత్రణను ఇచ్చే మోడల్ కేవలం అసంపూర్ణం కాదు. అది తప్పుదోవ పట్టించే అవకాశం కూడా ఉంది.

కాబట్టి WorldReasonBench బహుళమోడల్ AIలోని విస్తృత సవాలును సూచిస్తోంది. వ్యవస్థలు సాధారణ భౌతిక ప్రవర్తన లేదా ప్రాథమిక తార్కిక నిర్మాణాన్ని నమ్మకంగా ప్రతినిధ్యం వహించలేకపోతే, మెరుగైన రెండరింగ్ మాత్రమే వాటిని నమ్మదగినవిగా చేయదు. ఈ పరిశోధన దృశ్య నాణ్యత ముఖ్యముకాదని వాదించదు. అది రంగం తర్కంతో పోలిస్తే దానికి చాలా ఎక్కువ విలువ ఇచ్చిందని వాదిస్తుంది.

అందువల్ల దాని ఖచ్చితమైన ర్యాంకింగ్స్ కాలంతో మారినప్పటికీ, ఈ బెంచ్‌మార్క్ ఉపయోగకరంగానే ఉంటుంది. ఇది వీడియో జనరేషన్‌కు మరింత కఠినమైన ప్రశ్నను నిర్వచిస్తుంది: క్లిప్ నిజంగా కనిపిస్తుందా అనేది కాదు, అది నిజమైన ప్రపంచానికి చెందినదిగా ప్రవర్తిస్తుందా అనేదే.

ప్రస్తుతం, సమాధానం ఉత్తమంగా చూసినా మిశ్రమంగానే ఉంది. ముందున్న వాణిజ్య వ్యవస్థలు స్పష్టంగా ముందున్నాయి, కానీ బెంచ్‌మార్క్ యొక్క కేంద్ర సందేశం ఏ లీడర్‌బోర్డ్ ఫలితానికన్నా పదునైనది. AI వీడియో ఇప్పుడు ఆకట్టుకునే సన్నివేశాలను రూపొందించగలదు. అది ఇంకా తాను సృష్టించే సన్నివేశాలను అర్థం చేసుకోవడంలో ఇబ్బంది పడుతోంది.

ఈ వ్యాసం The Decoder ద్వారా వచ్చిన రిపోర్టింగ్‌పై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com