AI वीडियो अधिक विश्वसनीय दिखने लगा है, लेकिन जरूरी नहीं कि अधिक समझदार भी हो
AI video systems की नवीनतम पीढ़ी ऐसे क्लिप बना सकती है जो पहले के models की तुलना में अधिक परिष्कृत दिखते हैं, smoother motion, बेहतर lighting, और अधिक realistic textures के साथ। लेकिन Tsinghua University के शोधकर्ताओं का एक नया benchmark तर्क देता है कि दृश्य गुणवत्ता एक गहरी सीमा को ढक रही है: कई systems अभी भी यह नहीं समझते कि दुनिया को काम कैसे करना चाहिए।
WorldReasonBench नाम का यह benchmark इस बात को मापने के लिए बनाया गया है कि क्या कोई model किसी scene को इस तरह आगे बढ़ा सकता है कि वह physically, socially, logically, और informationally plausible बना रहे। यह इस सवाल से अलग है कि कोई video सिर्फ अच्छा दिखता है या नहीं। शोधकर्ताओं के ढांचे में, appearance में realism, reasoning में realism के बराबर नहीं है।
यह अंतर महत्वपूर्ण है क्योंकि generative video के कई headline उदाहरणों का मूल्यांकन मुख्यतः style और एक नजर में coherence के आधार पर किया जाता है। कोई clip सिनेमाई और fluid दिख सकता है, फिर भी gravity, object behavior, human interaction, या cause and effect से जुड़े सामान्य अपेक्षाओं का उल्लंघन कर सकता है। WorldReasonBench ठीक इसी अंतर को उजागर करने के लिए बनाया गया है।
Benchmark विश्व-समझ को कैसे जांचता है
Image quality की ग्रेडिंग करने के बजाय, यह benchmark किसी scene से शुरू होता है और model से उसे ऐसे आगे बढ़ाने को कहता है कि वह समझ में आए। स्रोत लेख एक सरल उदाहरण देता है: शाखा पर एक apple, जिसके बाद उसे गिराने का निर्देश दिया जाता है। कोई system सुंदर sequence बना सकता है और फिर भी task में विफल हो सकता है यदि apple ऊपर की ओर चले, balloon की तरह व्यवहार करे, या अविश्वसनीय तरीके से गिरे।
यही मूल समस्या है जिसे benchmark अलग करना चाहता है। एक polished output पारंपरिक aesthetics में अच्छा स्कोर कर सकता है, जबकि घटना के logic में विफल हो सकता है। इसलिए WorldReasonBench मूल्यांकन को चार reasoning क्षेत्रों और 22 subcategories में बांटता है।
- World knowledge, जिसमें physics, weather, और cultural norms शामिल हैं
- Human-centered scenes, जैसे object handling और social interaction
- Logical reasoning, जिसमें math, geometry, और science experiments शामिल हैं
- Information-based reasoning, जैसे data और diagrams पढ़ना
स्रोत सामग्री के अनुसार, benchmark में लगभग 400 test cases शामिल हैं। शोधकर्ताओं ने इसके साथ WorldRewardBench भी जोड़ा, जो लगभग 6,000 video comparisons का preference dataset है, जिन्हें trained annotators ने rank किया है। वह दूसरा dataset models की head-to-head तुलना में मदद करने के लिए है, न कि केवल abstract scoring rules के खिलाफ।
Plausibility के लिए दो-चरणीय scoring system
Evaluation process दो स्तरों का उपयोग करती है। पहले, एक process-aware method संरचित सवाल पूछती है ताकि यह तय किया जा सके कि video सही end state तक पहुंचता है या नहीं, और क्या वह वहां तक पहुंचने का तरीका भी plausible है। फिर दूसरा pass तीन व्यापक गुणों को परखता है: reasoning quality, temporal consistency, और visual aesthetics।
यह design उल्लेखनीय है क्योंकि यह presentation quality को हटाता नहीं है। इसके बजाय, यह appearance को उसकी उचित जगह पर रखता है। Benchmark अब भी मानता है कि एक उपयोगी video model visually convincing होना चाहिए, लेकिन वह aesthetics को पूरे परिणाम के बजाय केवल एक हिस्से के रूप में देखता है।
क्षेत्र के लिए, यह एक महत्वपूर्ण बदलाव है। Image और video generation में प्रगति अक्सर ऐसे demos के माध्यम से दिखाई जाती है जिन्हें प्रशंसा करना आसान होता है, लेकिन audit करना कठिन होता है। Consequences पर केंद्रित benchmark surface quality की तुलना में अधिक सख्त मानक बनाता है, खासकर उन use cases के लिए जहां generated video को instructions, experiments, diagrams, या real-world events दिखाने की जरूरत हो सकती है।
Commercial systems आगे हैं, लेकिन कोई भी mastery के करीब नहीं
शोधकर्ताओं ने पांच commercial systems और छह open-source models का परीक्षण किया। Commercial समूह में Sora 2, Kling, Wan 2.6, Seedance 2.0, और Veo 3.1-Fast शामिल थे। Open-source समूह में LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, और LongCat-Video शामिल थे।
Benchmark के core reasoning metric पर commercial models ने काफी बेहतर प्रदर्शन किया। स्रोत के अनुसार, उन्होंने open-source systems से लगभग दोगुना स्कोर किया, और दोनों समूहों के बीच कोई statistical overlap नहीं था। यह निष्कर्ष बताता है कि सबसे सक्षम proprietary models अभी भी उन कार्यों में आगे हैं जिनमें केवल appearance से अधिक चाहिए।
फिर भी, व्यापक निष्कर्ष यह नहीं है कि commercial systems ने video reasoning हल कर लिया है। लेख कहता है कि logic ने हर परीक्षण किए गए model को अब भी उलझाया। Falling dominoes, a claw machine, और एक साधारण circuit जैसे उदाहरण भी विफलताओं को उजागर करने के लिए पर्याप्त थे। दूसरे शब्दों में, बेहतर products मौजूद हैं, लेकिन मजबूत world understanding अभी भी हर जगह अनुपस्थित है।
यह एक महत्वपूर्ण परिणाम है क्योंकि यह generative AI के एक आम अनुमान को चुनौती देता है: कि अधिक realistic outputs का मतलब गहरी क्षमता होती है। WorldReasonBench इसके विपरीत संकेत देता है। जैसे-जैसे models style में बेहतर होते हैं, उनकी बाकी विफलताएं casual observers के लिए अधिक कठिन हो सकती हैं, भले ही वे practical settings में मायने रखती हों।
यह केवल benchmark rankings से आगे क्यों मायने रखता है
यह benchmark ऐसे समय आया है जब AI video tools का मूल्यांकन सिर्फ entertainment engines के रूप में नहीं, बल्कि education, design, simulation, communication, और automated content production में संभावित सहायता देने वाले systems के रूप में भी हो रहा है। ऐसे संदर्भों में plausibility वैकल्पिक नहीं है। Motion, measurement, या interaction का सुंदर लेकिन गलत चित्रण बनाने वाला model केवल अपूर्ण नहीं होता। वह भ्रामक हो सकता है।
WorldReasonBench इसलिए multimodal AI की एक व्यापक चुनौती की ओर इशारा करता है। यदि systems ordinary physical behavior या basic logical structure को भरोसेमंद ढंग से प्रस्तुत नहीं कर सकते, तो बेहतर rendering alone उन्हें dependable नहीं बनाएगी। शोध यह नहीं कहता कि visual quality महत्वपूर्ण नहीं है। वह कहता है कि field ने reasoning की तुलना में उस पर बहुत अधिक इनाम दिया है।
इसलिए, भले ही इसकी सटीक rankings समय के साथ बदलें, benchmark उपयोगी बना रहता है। यह video generation के लिए एक अधिक demanding सवाल परिभाषित करता है: क्या clip वास्तविक दिखता है, यह नहीं, बल्कि क्या वह ऐसे व्यवहार करता है जैसे वह real world का हिस्सा हो।
अभी के लिए, जवाब अधिकतम mixed है। अग्रणी commercial systems स्पष्ट रूप से आगे हैं, लेकिन benchmark का केंद्रीय संदेश किसी leaderboard result से अधिक तेज़ है। AI video अब प्रभावशाली scenes बना सकता है। यह अब भी उन scenes को समझने में संघर्ष करता है जिन्हें वह बनाता है।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com





