AI व्हिडिओ आता अधिक विश्वासार्ह दिसतो, पण आवश्यकच अधिक समंजस आहे असे नाही

AI व्हिडिओ प्रणालींची नवीनतम पिढी आधीच्या मॉडेल्सपेक्षा अधिक गुळगुळीत हालचाल, अधिक मजबूत प्रकाशयोजना, आणि अधिक वास्तववादी टेक्स्चर्ससह क्लिप्स तयार करू शकते. पण Tsinghua University येथील संशोधकांनी मांडलेला एक नवा बेंचमार्क म्हणतो की दृश्य गुणवत्ता एका खोल मर्यादेला झाकून टाकत आहे: अनेक प्रणाली अजूनही जगाने कसे काम करायला हवे हे समजत नाहीत.

WorldReasonBench नावाचा हा बेंचमार्क एखादे मॉडेल दृश्य अशा पद्धतीने पुढे नेऊ शकते का, जे भौतिक, सामाजिक, तार्किक, आणि माहितीपरदृष्ट्या विश्वासार्ह असेल, हे मोजण्यासाठी तयार केला आहे. हा प्रश्न केवळ व्हिडिओ चांगला दिसतो का, यापेक्षा वेगळा आहे. संशोधकांच्या चौकटीत, दिसण्यातली वास्तवता आणि तर्कातील वास्तवता एकसारखी नाही.

हा फरक महत्त्वाचा आहे, कारण जनरेटिव्ह व्हिडिओमधील अनेक चर्चेतले उदाहरणे प्रामुख्याने शैली आणि पहिल्या नजरेतील सुसंगततेवर तपासली जातात. एखादा क्लिप सिनेमॅटिक आणि प्रवाही दिसू शकतो, तरीही गुरुत्वाकर्षण, वस्तूंचे वर्तन, मानवी परस्परसंवाद, किंवा कारण-परिणाम याबाबतच्या सामान्य अपेक्षा मोडू शकतो. WorldReasonBench नेमके हेच अंतर उघड करण्यासाठी तयार करण्यात आले आहे.

बेंचमार्क जग-समज कशी तपासतो

इमेज क्वालिटीला गुण देण्याऐवजी, हा बेंचमार्क एका दृश्यापासून सुरू होतो आणि मॉडेलला ते अर्थपूर्ण पद्धतीने पुढे नेण्यास सांगतो. स्रोत लेखात एक साधे उदाहरण दिले आहे: फांदीवरचे एक सफरचंद, त्यानंतर ते खाली पडेल अशी सूचना. एक प्रणाली सुंदर अनुक्रम तयार करू शकते आणि तरीही कार्यात अपयशी ठरू शकते, जर सफरचंद वरच्या दिशेने गेले, फुग्यासारखे वागले, किंवा अविश्वसनीय पद्धतीने पडले.

हीच मुख्य समस्या बेंचमार्क वेगळी काढू पाहतो. एक पॉलिश केलेला आउटपुट पारंपरिक सौंदर्यदृष्टीच्या निकषांवर चांगला स्कोर करू शकतो, पण घटनेच्या तर्कात अपयशी ठरू शकतो. त्यामुळे WorldReasonBench मूल्यांकन चार तर्कक्षेत्रे आणि 22 उपश्रेणींमध्ये विभागतो.

  • जगाचे ज्ञान, ज्यात भौतिकशास्त्र, हवामान, आणि सांस्कृतिक नियम समाविष्ट आहेत
  • मानवकेंद्रित दृश्ये, जसे वस्तू हाताळणे आणि सामाजिक संवाद
  • तार्किक तर्क, ज्यात गणित, भूमिती, आणि विज्ञान प्रयोग समाविष्ट आहेत
  • माहितीआधारित तर्क, जसे डेटा आणि आकृत्या वाचणे

स्रोत सामग्रीनुसार, या बेंचमार्कमध्ये सुमारे 400 चाचणी उदाहरणे आहेत. संशोधकांनी यासोबत WorldRewardBench देखील जोडला, जो प्रशिक्षित अ‍ॅनोटेटर्सनी क्रमवारी लावलेल्या सुमारे 6,000 व्हिडिओ तुलनांचा preference dataset आहे. हा दुसरा dataset मॉडेल्सची केवळ abstract scoring rules विरुद्ध नव्हे, तर एकमेकांशी तुलना करण्यासाठी मदत करतो.

विश्वसनीयतेसाठी दोन-टप्प्यांची स्कोरिंग प्रणाली

मूल्यांकन प्रक्रिया दोन स्तर वापरते. प्रथम, process-aware पद्धत संरचित प्रश्न विचारते, जेणेकरून व्हिडिओ योग्य अंतिम स्थितीपर्यंत पोहोचला का आणि तो तिकडे विश्वासार्ह रीतीने पोहोचला का हे ठरवता येईल. नंतर दुसऱ्या टप्प्यात तीन व्यापक गुणांचे मूल्यांकन केले जाते: तर्काची गुणवत्ता, कालगत सुसंगती, आणि दृश्य सौंदर्य.

हे डिझाइन महत्त्वाचे आहे, कारण ते सादरीकरणाच्या गुणवत्तेला नाकारत नाही. उलट, तिला योग्य स्थान देते. उपयुक्त व्हिडिओ मॉडेल दृश्यदृष्ट्या विश्वासार्ह असले पाहिजे हे बेंचमार्क मान्य करतो, पण तो सौंदर्याला परिणामाचा फक्त एक भाग मानतो, संपूर्ण कथा नाही.

या क्षेत्रासाठी हा एक महत्त्वाचा बदल आहे. इमेज आणि व्हिडिओ जनरेशनमध्ये प्रगती अनेकदा अशा डेमोद्वारे मांडली जाते ज्यांचे कौतुक करणे सोपे, पण तपासणे कठीण असते. पृष्ठभागी गुणवत्तेपेक्षा परिणामांवर केंद्रित बेंचमार्क अधिक कठोर मानक निर्माण करतो, विशेषतः ज्या use case मध्ये तयार व्हिडिओला सूचना, प्रयोग, आकृत्या, किंवा वास्तविक जगातील घटना दाखवाव्या लागतात.

व्यावसायिक प्रणाली आघाडीवर, पण कोणतीही mastery जवळ नाही

संशोधकांनी पाच व्यावसायिक प्रणाली आणि सहा open-source model तपासले. व्यावसायिक गटात Sora 2, Kling, Wan 2.6, Seedance 2.0, आणि Veo 3.1-Fast होते. open-source गटात LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, आणि LongCat-Video होते.

बेंचमार्कच्या मुख्य तर्क-मीट्रिकवर, व्यावसायिक model नी खूप चांगली कामगिरी केली. स्रोत म्हणतो की त्यांनी open-source प्रणालींपेक्षा जवळजवळ दुप्पट गुण मिळवले, आणि दोन्ही गटांमध्ये statistical overlap नव्हता. हा निष्कर्ष सूचित करतो की सर्वात सक्षम proprietary model अजूनही appearance पेक्षा अधिक मागणाऱ्या कामांमध्ये पुढे आहेत.

तरीही, व्यापक निष्कर्ष असा नाही की व्यावसायिक प्रणालींनी व्हिडिओतील reasoning सोडवले आहे. लेख म्हणतो की चाचणी केलेल्या प्रत्येक model ला logic मध्ये अडचण आली. पडणारे डोमिनोज, एक claw machine, आणि एक साधे circuit यांसारखी उदाहरणेही अपयश उघड करण्यास पुरेशी होती. दुसऱ्या शब्दांत, चांगली उत्पादने आहेत, पण मजबूत world understanding अजूनही सर्वत्र नाही.

हा एक अर्थपूर्ण निष्कर्ष आहे, कारण तो generative AI बद्दलच्या सामान्य गृहितकाच्या विरुद्ध जातो: अधिक वास्तववादी आउटपुट म्हणजेच अधिक खोल क्षमता. WorldReasonBench सुचवतो की उलटही अनेकदा खरे ठरू शकते. मॉडेल्स style मध्ये सुधारत गेले, की त्यांच्या उरलेल्या चुका casual observers ना लक्षात येणे अधिक कठीण होते, जरी त्या चुकांचा प्रत्यक्ष वापरात अर्थ असेल.

बेंचमार्क रँकिंगच्या पलीकडे हे का महत्त्वाचे आहे

AI व्हिडिओ टूल्सचे मूल्यमापन आता फक्त मनोरंजन इंजिन म्हणून नाही, तर शिक्षण, डिझाइन, simulation, संवाद, आणि स्वयंचलित content production मध्ये मदत करू शकणाऱ्या प्रणाली म्हणूनही केले जात आहे, अशा काळात हा बेंचमार्क आला आहे. अशा परिस्थितीत plausibility ऐच्छिक नाही. हालचाल, मोजमाप, किंवा परस्परसंवादाचे सुंदर पण चुकीचे चित्रण देणारे मॉडेल केवळ अपूर्ण नसते. ते दिशाभूल करणारेही असू शकते.

म्हणूनच WorldReasonBench multimodal AI मधील व्यापक आव्हान दाखवतो. प्रणाली जर सामान्य भौतिक वर्तन किंवा मूलभूत तार्किक रचना विश्वासार्हपणे मांडू शकत नसतील, तर केवळ चांगले rendering त्यांना विश्वासार्ह बनवणार नाही. संशोधन असे म्हणत नाही की दृश्य गुणवत्ता महत्त्वाची नाही. ते म्हणते की या क्षेत्राने तर्काच्या तुलनेत तिला जास्तच बक्षीस दिले आहे.

म्हणूनच त्याची अचूक क्रमवारी वेळेनुसार बदलली तरीही हा बेंचमार्क उपयुक्त राहतो. तो व्हिडिओ जनरेशनसाठी अधिक मागणी करणारा प्रश्न परिभाषित करतो: क्लिप वास्तविक दिसते का, हे नाही, तर ती वास्तविक जगातली वाटेल अशा प्रकारे वागते का.

सध्या, उत्तर किमान मिश्रित आहे. आघाडीच्या व्यावसायिक प्रणाली स्पष्टपणे पुढे आहेत, पण बेंचमार्कचा मध्यवर्ती संदेश कुठल्याही leaderboard निकालापेक्षा अधिक तीव्र आहे. AI व्हिडिओ आता लक्षवेधी दृश्ये तयार करू शकतो. तो अजूनही स्वतः तयार केलेली दृश्ये समजण्यात अडखळतो आहे.

हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com