AI व्हिडिओ बेंचमार्कमध्ये दृश्य गुणवत्तेपेक्षा जग-तर्क अजूनही मागे असल्याचे दिसते

AI व्हिडिओ आता अधिक विश्वासार्ह दिसतो, पण आवश्यकच अधिक समंजस आहे असे नाही

AI व्हिडिओ प्रणालींची नवीनतम पिढी आधीच्या मॉडेल्सपेक्षा अधिक गुळगुळीत हालचाल, अधिक मजबूत प्रकाशयोजना, आणि अधिक वास्तववादी टेक्स्चर्ससह क्लिप्स तयार करू शकते. पण Tsinghua University येथील संशोधकांनी मांडलेला एक नवा बेंचमार्क म्हणतो की दृश्य गुणवत्ता एका खोल मर्यादेला झाकून टाकत आहे: अनेक प्रणाली अजूनही जगाने कसे काम करायला हवे हे समजत नाहीत.

WorldReasonBench नावाचा हा बेंचमार्क एखादे मॉडेल दृश्य अशा पद्धतीने पुढे नेऊ शकते का, जे भौतिक, सामाजिक, तार्किक, आणि माहितीपरदृष्ट्या विश्वासार्ह असेल, हे मोजण्यासाठी तयार केला आहे. हा प्रश्न केवळ व्हिडिओ चांगला दिसतो का, यापेक्षा वेगळा आहे. संशोधकांच्या चौकटीत, दिसण्यातली वास्तवता आणि तर्कातील वास्तवता एकसारखी नाही.

हा फरक महत्त्वाचा आहे, कारण जनरेटिव्ह व्हिडिओमधील अनेक चर्चेतले उदाहरणे प्रामुख्याने शैली आणि पहिल्या नजरेतील सुसंगततेवर तपासली जातात. एखादा क्लिप सिनेमॅटिक आणि प्रवाही दिसू शकतो, तरीही गुरुत्वाकर्षण, वस्तूंचे वर्तन, मानवी परस्परसंवाद, किंवा कारण-परिणाम याबाबतच्या सामान्य अपेक्षा मोडू शकतो. WorldReasonBench नेमके हेच अंतर उघड करण्यासाठी तयार करण्यात आले आहे.

बेंचमार्क जग-समज कशी तपासतो

इमेज क्वालिटीला गुण देण्याऐवजी, हा बेंचमार्क एका दृश्यापासून सुरू होतो आणि मॉडेलला ते अर्थपूर्ण पद्धतीने पुढे नेण्यास सांगतो. स्रोत लेखात एक साधे उदाहरण दिले आहे: फांदीवरचे एक सफरचंद, त्यानंतर ते खाली पडेल अशी सूचना. एक प्रणाली सुंदर अनुक्रम तयार करू शकते आणि तरीही कार्यात अपयशी ठरू शकते, जर सफरचंद वरच्या दिशेने गेले, फुग्यासारखे वागले, किंवा अविश्वसनीय पद्धतीने पडले.

हीच मुख्य समस्या बेंचमार्क वेगळी काढू पाहतो. एक पॉलिश केलेला आउटपुट पारंपरिक सौंदर्यदृष्टीच्या निकषांवर चांगला स्कोर करू शकतो, पण घटनेच्या तर्कात अपयशी ठरू शकतो. त्यामुळे WorldReasonBench मूल्यांकन चार तर्कक्षेत्रे आणि 22 उपश्रेणींमध्ये विभागतो.

जगाचे ज्ञान, ज्यात भौतिकशास्त्र, हवामान, आणि सांस्कृतिक नियम समाविष्ट आहेत
मानवकेंद्रित दृश्ये, जसे वस्तू हाताळणे आणि सामाजिक संवाद
तार्किक तर्क, ज्यात गणित, भूमिती, आणि विज्ञान प्रयोग समाविष्ट आहेत
माहितीआधारित तर्क, जसे डेटा आणि आकृत्या वाचणे

स्रोत सामग्रीनुसार, या बेंचमार्कमध्ये सुमारे 400 चाचणी उदाहरणे आहेत. संशोधकांनी यासोबत WorldRewardBench देखील जोडला, जो प्रशिक्षित अ‍ॅनोटेटर्सनी क्रमवारी लावलेल्या सुमारे 6,000 व्हिडिओ तुलनांचा preference dataset आहे. हा दुसरा dataset मॉडेल्सची केवळ abstract scoring rules विरुद्ध नव्हे, तर एकमेकांशी तुलना करण्यासाठी मदत करतो.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 ने 2,000 तासांचा रोबोटिक्स डेटासेट ओपन-सोर्स केला

X Square Robot ने XRZero-G0 आणि 2,000 तासांचा मल्टिमोडल डेटासेट जारी केला आहे, ज्याचा उद्देश embodied AI प्रणालींसाठी लागणारा वास्तविक-रोबोट प्रशिक्षण डेटा कमी करणे हा आहे.

Read article

विश्वसनीयतेसाठी दोन-टप्प्यांची स्कोरिंग प्रणाली

मूल्यांकन प्रक्रिया दोन स्तर वापरते. प्रथम, process-aware पद्धत संरचित प्रश्न विचारते, जेणेकरून व्हिडिओ योग्य अंतिम स्थितीपर्यंत पोहोचला का आणि तो तिकडे विश्वासार्ह रीतीने पोहोचला का हे ठरवता येईल. नंतर दुसऱ्या टप्प्यात तीन व्यापक गुणांचे मूल्यांकन केले जाते: तर्काची गुणवत्ता, कालगत सुसंगती, आणि दृश्य सौंदर्य.

हे डिझाइन महत्त्वाचे आहे, कारण ते सादरीकरणाच्या गुणवत्तेला नाकारत नाही. उलट, तिला योग्य स्थान देते. उपयुक्त व्हिडिओ मॉडेल दृश्यदृष्ट्या विश्वासार्ह असले पाहिजे हे बेंचमार्क मान्य करतो, पण तो सौंदर्याला परिणामाचा फक्त एक भाग मानतो, संपूर्ण कथा नाही.

या क्षेत्रासाठी हा एक महत्त्वाचा बदल आहे. इमेज आणि व्हिडिओ जनरेशनमध्ये प्रगती अनेकदा अशा डेमोद्वारे मांडली जाते ज्यांचे कौतुक करणे सोपे, पण तपासणे कठीण असते. पृष्ठभागी गुणवत्तेपेक्षा परिणामांवर केंद्रित बेंचमार्क अधिक कठोर मानक निर्माण करतो, विशेषतः ज्या use case मध्ये तयार व्हिडिओला सूचना, प्रयोग, आकृत्या, किंवा वास्तविक जगातील घटना दाखवाव्या लागतात.

व्यावसायिक प्रणाली आघाडीवर, पण कोणतीही mastery जवळ नाही

संशोधकांनी पाच व्यावसायिक प्रणाली आणि सहा open-source model तपासले. व्यावसायिक गटात Sora 2, Kling, Wan 2.6, Seedance 2.0, आणि Veo 3.1-Fast होते. open-source गटात LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, आणि LongCat-Video होते.

बेंचमार्कच्या मुख्य तर्क-मीट्रिकवर, व्यावसायिक model नी खूप चांगली कामगिरी केली. स्रोत म्हणतो की त्यांनी open-source प्रणालींपेक्षा जवळजवळ दुप्पट गुण मिळवले, आणि दोन्ही गटांमध्ये statistical overlap नव्हता. हा निष्कर्ष सूचित करतो की सर्वात सक्षम proprietary model अजूनही appearance पेक्षा अधिक मागणाऱ्या कामांमध्ये पुढे आहेत.

तरीही, व्यापक निष्कर्ष असा नाही की व्यावसायिक प्रणालींनी व्हिडिओतील reasoning सोडवले आहे. लेख म्हणतो की चाचणी केलेल्या प्रत्येक model ला logic मध्ये अडचण आली. पडणारे डोमिनोज, एक claw machine, आणि एक साधे circuit यांसारखी उदाहरणेही अपयश उघड करण्यास पुरेशी होती. दुसऱ्या शब्दांत, चांगली उत्पादने आहेत, पण मजबूत world understanding अजूनही सर्वत्र नाही.

हा एक अर्थपूर्ण निष्कर्ष आहे, कारण तो generative AI बद्दलच्या सामान्य गृहितकाच्या विरुद्ध जातो: अधिक वास्तववादी आउटपुट म्हणजेच अधिक खोल क्षमता. WorldReasonBench सुचवतो की उलटही अनेकदा खरे ठरू शकते. मॉडेल्स style मध्ये सुधारत गेले, की त्यांच्या उरलेल्या चुका casual observers ना लक्षात येणे अधिक कठीण होते, जरी त्या चुकांचा प्रत्यक्ष वापरात अर्थ असेल.

Our new community investments in Virginia support local jobs and expand energy affordability.

गूगलचे व्हर्जिनियात गुंतवणूक: $15 दशलक्ष ऊर्जा निधी आणि 2,741 अप्रेंटिसशिप

गूगलने व्हर्जिनियामध्ये स्थानिक नोकऱ्या आणि ऊर्जा परवडणीयता वाढवण्यासाठी $15 दशलक्षचा Energy Impact Fund आणि 2,741 विद्युत अप्रेंटिसशिपला पाठिंबा जाहीर केला.

Read article

बेंचमार्क रँकिंगच्या पलीकडे हे का महत्त्वाचे आहे

AI व्हिडिओ टूल्सचे मूल्यमापन आता फक्त मनोरंजन इंजिन म्हणून नाही, तर शिक्षण, डिझाइन, simulation, संवाद, आणि स्वयंचलित content production मध्ये मदत करू शकणाऱ्या प्रणाली म्हणूनही केले जात आहे, अशा काळात हा बेंचमार्क आला आहे. अशा परिस्थितीत plausibility ऐच्छिक नाही. हालचाल, मोजमाप, किंवा परस्परसंवादाचे सुंदर पण चुकीचे चित्रण देणारे मॉडेल केवळ अपूर्ण नसते. ते दिशाभूल करणारेही असू शकते.

म्हणूनच WorldReasonBench multimodal AI मधील व्यापक आव्हान दाखवतो. प्रणाली जर सामान्य भौतिक वर्तन किंवा मूलभूत तार्किक रचना विश्वासार्हपणे मांडू शकत नसतील, तर केवळ चांगले rendering त्यांना विश्वासार्ह बनवणार नाही. संशोधन असे म्हणत नाही की दृश्य गुणवत्ता महत्त्वाची नाही. ते म्हणते की या क्षेत्राने तर्काच्या तुलनेत तिला जास्तच बक्षीस दिले आहे.

म्हणूनच त्याची अचूक क्रमवारी वेळेनुसार बदलली तरीही हा बेंचमार्क उपयुक्त राहतो. तो व्हिडिओ जनरेशनसाठी अधिक मागणी करणारा प्रश्न परिभाषित करतो: क्लिप वास्तविक दिसते का, हे नाही, तर ती वास्तविक जगातली वाटेल अशा प्रकारे वागते का.

सध्या, उत्तर किमान मिश्रित आहे. आघाडीच्या व्यावसायिक प्रणाली स्पष्टपणे पुढे आहेत, पण बेंचमार्कचा मध्यवर्ती संदेश कुठल्याही leaderboard निकालापेक्षा अधिक तीव्र आहे. AI व्हिडिओ आता लक्षवेधी दृश्ये तयार करू शकतो. तो अजूनही स्वतः तयार केलेली दृश्ये समजण्यात अडखळतो आहे.

हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com

अधिक चांगले दिसणारा AI व्हिडिओही मूलभूत जग-तर्कात का अपयशी ठरतो, हे नवे बेंचमार्क दाखवते