AI వీడియో బెంచ్‌మార్క్‌లో దృశ్య నాణ్యత కంటే ప్రపంచ తర్కం ఇంకా వెనుకబడి ఉందని తేలింది

AI వీడియో ఇప్పుడు మరింత నమ్మశక్యంగా కనిపిస్తోంది, కానీ తప్పనిసరిగా మరింత బుద్ధిమంతంగా కాదు

AI వీడియో వ్యవస్థల తాజా తరం, మునుపటి మోడళ్ల కంటే మెరుగైన కదలిక, బలమైన లైటింగ్, మరియు మరింత వాస్తవికమైన టెక్స్చర్లతో, ఇంకా మెరుగ్గా ఉన్న క్లిప్‌లను రూపొందించగలదు. కానీ Tsinghua University పరిశోధకులు ప్రతిపాదించిన ఒక కొత్త బెంచ్‌మార్క్, దృశ్య నాణ్యత ఒక లోతైన పరిమితిని కప్పిపుచ్చుతోందని వాదిస్తోంది: అనేక వ్యవస్థలు ఇంకా ప్రపంచం ఎలా పనిచేయాలో అర్థం చేసుకోలేకపోతున్నాయి.

WorldReasonBench అని పిలిచే ఈ బెంచ్‌మార్క్, ఒక మోడల్ ఒక సన్నివేశాన్ని భౌతికంగా, సామాజికంగా, తార్కికంగా, మరియు సమాచారపరంగా నమ్మశక్యంగా ఉండే విధంగా కొనసాగించగలదా అనే దాన్ని కొలవడానికి రూపొందించబడింది. ఇది ఒక వీడియో కేవలం బాగుందా అనే ప్రశ్నకు భిన్నమైనది. పరిశోధకుల రూపకల్పనలో, రూపంలో ఉన్న వాస్తవికత అనేది ఆలోచనలో ఉన్న వాస్తవికతతో సమానం కాదు.

ఈ తేడా ముఖ్యమైనది, ఎందుకంటే జనరేటివ్ వీడియోలోని అనేక ముఖ్య ఉదాహరణలు, మొదటి చూపులో శైలి మరియు ఏకరూపత ఆధారంగా మాత్రమే నిర్ణయించబడుతాయి. ఒక క్లిప్ సినిమా లాగా, సాఫీగా కనిపించవచ్చు, కానీ గురుత్వాకర్షణ, వస్తువుల ప్రవర్తన, మానవ పరస్పర చర్య, లేదా కారణం-ఫలితాల సాధారణ అంచనాలను ఉల్లంఘించవచ్చు. WorldReasonBench ఖచ్చితంగా ఆ ఖాళీని బయటపెట్టడానికి రూపొందించబడింది.

ఈ బెంచ్‌మార్క్ ప్రపంచ అవగాహనను ఎలా పరీక్షిస్తుంది

చిత్ర నాణ్యతకు మార్కులు వేయడం బదులు, ఈ బెంచ్‌మార్క్ ఒక సన్నివేశం నుంచి ప్రారంభమై, దాన్ని అర్థవంతంగా కొనసాగించమని మోడల్‌ను కోరుతుంది. మూల వ్యాసం ఒక సరళ ఉదాహరణను చూపిస్తుంది: ఒక కొమ్మపై ఉన్న ఆపిల్, తరువాత దాన్ని పడేయమనే ఆదేశం. ఒక వ్యవస్థ అందమైన క్రమాన్ని రూపొందించగలదు, కానీ ఆపిల్ పైకి కదిలితే, బెలూన్‌లా ప్రవర్తిస్తే, లేదా నమ్మశక్యం కాని విధంగా పడితే, అది పనిలో విఫలమవుతుంది.

ఈ బెంచ్‌మార్క్ వేరు చేయడానికి ప్రయత్నిస్తున్న ప్రధాన సమస్య ఇదే. ఒక మెరుగైన అవుట్‌పుట్ సంప్రదాయ సౌందర్య ప్రమాణాల్లో మంచి స్కోరు సాధించవచ్చు, కానీ సంఘటన యొక్క తర్కంలో విఫలమవుతుంది. అందుకే WorldReasonBench మూల్యాంకనాన్ని నాలుగు తర్క విభాగాలు మరియు 22 ఉపవర్గాలుగా విడగొడుతుంది.

ప్రపంచ జ్ఞానం, ఇందులో భౌతిక శాస్త్రం, వాతావరణం, మరియు సాంస్కృతిక నిబంధనలు ఉన్నాయి
మనిషి కేంద్రిత సన్నివేశాలు, ఉదాహరణకు వస్తువులను చేతితో నిర్వహించడం మరియు సామాజిక పరస్పర చర్య
తార్కిక తర్కం, గణితం, జ్యామితి, మరియు శాస్త్రీయ ప్రయోగాలు సహా
సమాచార ఆధారిత తర్కం, డేటా మరియు డయాగ్రాములను చదవడం వంటి అంశాలు

మూల పదార్థం ప్రకారం, ఈ బెంచ్‌మార్క్‌లో సుమారు 400 పరీక్ష కేసులు ఉన్నాయి. పరిశోధకులు దీనితో పాటు WorldRewardBench ను కూడా జత చేశారు, ఇది శిక్షణ పొందిన అనోటేటర్లు ర్యాంక్ చేసిన సుమారు 6,000 వీడియో పోలికల ప్రాధాన్యత డేటాసెట్. ఆ రెండో డేటాసెట్, మోడళ్లను కేవలం సారాంశ స్కోరింగ్ నియమాలపై కాకుండా, ఒకదానితో ఒకటి పోల్చడానికి సహాయపడేలా రూపొందించబడింది.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 గంటల రోబోటిక్స్ డేటాసెట్‌ను ఓపెన్-సోర్స్ చేసింది

X Square Robot, embodied AI వ్యవస్థలకు అవసరమైన నిజమైన రోబోట్ శిక్షణ డేటా పరిమాణాన్ని తగ్గించడానికి లక్ష్యంగా XRZero-G0 మరియు 2,000 గంటల మల్టీమోడల్ డేటాసెట్‌ను విడుదల చేసింది.

Read article

నమ్మశక్యత కోసం రెండు దశల స్కోరింగ్ వ్యవస్థ

మూల్యాంకన ప్రక్రియ రెండు పొరలను ఉపయోగిస్తుంది. మొదట, ప్రక్రియ-సజాగ్రత కలిగిన విధానం నిర్మిత ప్రశ్నలను అడిగి, వీడియో సరైన చివరి స్థితికి చేరిందా, మరియు దానికి నమ్మశక్యమైన విధంగా చేరిందా అని నిర్ణయిస్తుంది. తరువాత రెండో దశలో మూడు విస్తృత లక్షణాలను రేటింగ్ చేస్తుంది: తర్క నాణ్యత, కాలక్రమ స్థిరత్వం, మరియు దృశ్య సౌందర్యం.

ఈ రూపకల్పన గమనించదగినది, ఎందుకంటే ఇది ప్రదర్శన నాణ్యతను విస్మరించదు. బదులుగా, దాన్ని సరైన స్థానంలో ఉంచుతుంది. ఉపయోగకరమైన వీడియో మోడల్ దృశ్యపరంగా నమ్మశక్యంగా ఉండాల్సిందే అని ఈ బెంచ్‌మార్క్ అంగీకరిస్తుంది, కానీ సౌందర్యాన్ని ఫలితంలోని ఒక భాగంగా మాత్రమే చూస్తుంది, మొత్తం కథగా కాదు.

ఈ రంగానికి ఇది ఒక ముఖ్యమైన మార్పు. చిత్రం మరియు వీడియో జనరేషన్‌లో, పురోగతిని తరచుగా చూడటానికి సులభం కానీ ఆడిట్ చేయడానికి కష్టం అయిన డెమోల ద్వారా తెలియజేస్తారు. ఉపరితల నాణ్యతకంటే పరిణామాలపై కేంద్రీకృతమైన బెంచ్‌మార్క్ మరింత కఠినమైన ప్రమాణాన్ని సృష్టిస్తుంది, ముఖ్యంగా రూపొందించిన వీడియో సూచనలు, ప్రయోగాలు, డయాగ్రామ్‌లు, లేదా నిజ జీవిత సంఘటనలను చూపించాల్సిన సందర్భాల్లో.

వాణిజ్య వ్యవస్థలు ముందున్నాయి, కానీ ఏదీ పూర్తిస్థాయి నైపుణ్యానికి దగ్గరగా లేదు

పరిశోధకులు ఐదు వాణిజ్య వ్యవస్థలు మరియు ఆరు ఓపెన్-సోర్స్ మోడళ్ళను పరీక్షించారు. వాణిజ్య సమూహంలో Sora 2, Kling, Wan 2.6, Seedance 2.0, మరియు Veo 3.1-Fast ఉన్నాయి. ఓపెన్-సోర్స్ సమూహంలో LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, మరియు LongCat-Video ఉన్నాయి.

బెంచ్‌మార్క్ యొక్క ప్రధాన తర్క మెట్రిక్‌పై, వాణిజ్య మోడళ్ళు చాలా మెరుగ్గా ప్రదర్శించాయి. మూలం ప్రకారం, అవి ఓపెన్-సోర్స్ వ్యవస్థలు సాధించిన స్కోర్లకు సుమారు రెండింతలు సాధించాయి, మరియు రెండు సమూహాల మధ్య గణాంకపరమైన ఓవర్ల్యాప్ లేదు. ఈ కనుగొనడం, పనులకు రూపం కంటే ఎక్కువ అవసరమైనప్పుడు, అత్యంత సామర్థ్యవంతమైన స్వంత మోడళ్ళు ఇంకా స్పష్టమైన ఆధిక్యంలో ఉన్నాయని సూచిస్తుంది.

అయినా, విస్తృతమైన తీరుమానం వాణిజ్య వ్యవస్థలు వీడియో తర్కాన్ని పరిష్కరించేశాయన్నది కాదు. వ్యాసం ప్రకారం, పరీక్షించిన ప్రతి మోడల్‌కు కూడా లాజిక్ ఇంకా అడ్డుపడుతోంది. పడిపోతున్న డొమినోలు, ఒక క్లా మెషిన్, మరియు ఒక సరళమైన సర్క్యూట్ వంటి ఉదాహరణలే లోపాలను బయటపెట్టడానికి సరిపోయాయి. మరో మాటలో చెప్పాలంటే, మెరుగైన ఉత్పత్తులు ఉన్నాయి, కానీ బలమైన ప్రపంచ అవగాహన ఇంకా అన్ని చోట్లా లేదు.

ఇది ముఖ్యమైన ఫలితం, ఎందుకంటే ఇది జనరేటివ్ AIలో ఒక సాధారణ ఊహకు వ్యతిరేకంగా ఉంది: మరింత వాస్తవిక అవుట్‌పుట్లు మరింత లోతైన సామర్థ్యాన్ని సూచిస్తాయని. WorldReasonBench దానికి విరుద్ధం తరచుగా నిజమవుతుందని సూచిస్తోంది. మోడళ్ళు శైలిలో మెరుగుపడుతున్న కొద్దీ, వాటి మిగిలిన వైఫల్యాలను సాధారణ వీక్షకులు గమనించడం మరింత కష్టమవుతుంది, ముఖ్యంగా ఆ వైఫల్యాలు ప్రాయోగిక సందర్భాల్లో ముఖ్యమైనప్పుడు.

Our new community investments in Virginia support local jobs and expand energy affordability.

గూగుల్ వర్జీనియాలో పెట్టుబడి: $15 మిలియన్ ఎనర్జీ ఫండ్ మరియు 2,741 అప్రెంటిస్‌షిప్‌లు

స్థానిక ఉద్యోగాలు, విద్యుత్ ఖర్చుల స్థిరత్వాన్ని పెంచేందుకు గూగుల్ వర్జీనియాలో $15 మిలియన్ ఎనర్జీ ఇంపాక్ట్ ఫండ్ మరియు 2,741 ఎలక్ట్రికల్ అప్రెంటిస్‌షిప్‌లకు మద్దతు ప్రకటించింది.

Read article

బెంచ్‌మార్క్ ర్యాంకింగ్స్‌ను దాటి ఇది ఎందుకు ముఖ్యం

AI వీడియో టూల్స్‌ను కేవలం వినోద ఇంజిన్లుగా కాకుండా, విద్య, డిజైన్, సిమ్యులేషన్, కమ్యూనికేషన్, మరియు ఆటోమేటెడ్ కంటెంట్ ఉత్పత్తిని eventually మద్దతు ఇవ్వగల వ్యవస్థలుగా కూడా అంచనా వేస్తున్న సమయంలో ఈ బెంచ్‌మార్క్ వచ్చింది. అలాంటి సందర్భాల్లో, నమ్మశక్యత ఐచ్ఛికం కాదు. కదలిక, కొలత, లేదా పరస్పర చర్యకు అందమైన కానీ తప్పైన చిత్రణను ఇచ్చే మోడల్ కేవలం అసంపూర్ణం కాదు. అది తప్పుదోవ పట్టించే అవకాశం కూడా ఉంది.

కాబట్టి WorldReasonBench బహుళమోడల్ AIలోని విస్తృత సవాలును సూచిస్తోంది. వ్యవస్థలు సాధారణ భౌతిక ప్రవర్తన లేదా ప్రాథమిక తార్కిక నిర్మాణాన్ని నమ్మకంగా ప్రతినిధ్యం వహించలేకపోతే, మెరుగైన రెండరింగ్ మాత్రమే వాటిని నమ్మదగినవిగా చేయదు. ఈ పరిశోధన దృశ్య నాణ్యత ముఖ్యముకాదని వాదించదు. అది రంగం తర్కంతో పోలిస్తే దానికి చాలా ఎక్కువ విలువ ఇచ్చిందని వాదిస్తుంది.

అందువల్ల దాని ఖచ్చితమైన ర్యాంకింగ్స్ కాలంతో మారినప్పటికీ, ఈ బెంచ్‌మార్క్ ఉపయోగకరంగానే ఉంటుంది. ఇది వీడియో జనరేషన్‌కు మరింత కఠినమైన ప్రశ్నను నిర్వచిస్తుంది: క్లిప్ నిజంగా కనిపిస్తుందా అనేది కాదు, అది నిజమైన ప్రపంచానికి చెందినదిగా ప్రవర్తిస్తుందా అనేదే.

ప్రస్తుతం, సమాధానం ఉత్తమంగా చూసినా మిశ్రమంగానే ఉంది. ముందున్న వాణిజ్య వ్యవస్థలు స్పష్టంగా ముందున్నాయి, కానీ బెంచ్‌మార్క్ యొక్క కేంద్ర సందేశం ఏ లీడర్‌బోర్డ్ ఫలితానికన్నా పదునైనది. AI వీడియో ఇప్పుడు ఆకట్టుకునే సన్నివేశాలను రూపొందించగలదు. అది ఇంకా తాను సృష్టించే సన్నివేశాలను అర్థం చేసుకోవడంలో ఇబ్బంది పడుతోంది.

ఈ వ్యాసం The Decoder ద్వారా వచ్చిన రిపోర్టింగ్‌పై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com

మంచిగా కనిపించే AI వీడియో కూడా ప్రాథమిక ప్రపంచ తర్కంలో ఎందుకు విఫలమవుతుందో కొత్త బెంచ్‌మార్క్ చూపిస్తోంది