AI வீடியோ இப்போது அதிக நம்பகமாகத் தோன்றுகிறது, ஆனால் அவசியமாக அதிக அறிவார்ந்ததாக இல்லை

AI வீடியோ அமைப்புகளின் சமீபத்திய தலைமுறை, முன் மாடல்களைக் காட்டிலும் மென்மையான இயக்கம், வலுவான ஒளியமைப்பு, மற்றும் மேலும் நிஜத்தன்மை கொண்ட உருமாற்றங்களுடன், அதிக மெருகூட்டப்பட்டதாகத் தோன்றும் கிளிப்புகளை உருவாக்க முடிகிறது. ஆனால் Tsinghua University ஆய்வாளர்கள் முன்வைத்த ஒரு புதிய பெஞ்ச்மார்க், காட்சித் தரம் ஒரு ஆழமான வரம்பை மறைத்துக் கொண்டிருக்கிறது என்று வாதிடுகிறது: பல அமைப்புகள் இன்னும் உலகம் எப்படி செயல்பட வேண்டும் என்பதைப் புரிந்துகொள்ளவில்லை.

WorldReasonBench என்ற இந்த பெஞ்ச்மார்க், ஒரு மாடல் ஒரு காட்சியை உடல், சமூக, தர்க்க, மற்றும் தகவல் ரீதியாக நம்பத்தகுந்ததாகத் தொடர முடியுமா என்பதை அளவிட உருவாக்கப்பட்டுள்ளது. இது ஒரு வீடியோ வெறுமனே நன்றாகத் தோன்றுகிறதா என்ற கேள்வியிலிருந்து வேறுபட்டது. ஆய்வாளர்களின் பார்வையில், தோற்றத்தில் உள்ள நிஜத்தன்மை, காரணப்பூர்வமான சிந்தனையில் உள்ள நிஜத்தன்மை அல்ல.

இந்த வேறுபாடு முக்கியமானது, ஏனெனில் உருவாக்கும் வீடியோவில் தலைப்புச் செய்திகள் ஆகும் பல உதாரணங்கள், முதலில் பார்க்கும் போது பாணி மற்றும் ஒற்றுமை அடிப்படையிலேயே மதிப்பிடப்படுகின்றன. ஒரு கிளிப் திரைப்படத் தன்மையுடனும் ஓட்டமுள்ளதாகவும் தோன்றலாம், ஆனால் ஈர்ப்பு விசை, பொருட்களின் நடத்தை, மனித தொடர்பு, அல்லது காரணம்-விளைவு பற்றிய வழக்கமான எதிர்பார்ப்புகளை மீறக்கூடும். WorldReasonBench அந்த இடைவெளியைத் துல்லியமாக வெளிப்படுத்த உருவாக்கப்பட்டுள்ளது.

இந்த பெஞ்ச்மார்க் உலகப் புரிதலை எப்படிப் பரிசோதிக்கிறது

படத் தரத்தை மதிப்பிடுவதற்குப் பதிலாக, இந்த பெஞ்ச்மார்க் ஒரு காட்சியிலிருந்து தொடங்கி, அதனை அர்த்தமுள்ளதாகத் தொடருமாறு மாடலைக் கேட்கிறது. மூலக் கட்டுரை ஒரு எளிய உதாரணத்தை எடுத்துக்காட்டுகிறது: ஒரு கிளையில் இருக்கும் ஆப்பிள், பின்னர் அதை விழச் செய்யும் உத்தரவு. ஒரு அமைப்பு அழகான வரிசையை உருவாக்கலாம்; ஆனால் ஆப்பிள் மேலே நகர்ந்தால், பலூன் போல நடந்து கொண்டால், அல்லது நம்பத்தகாத விதத்தில் விழுந்தால், அந்த பணியில் அது தோல்வியடையும்.

பெஞ்ச்மார்க் தனியாகப் பிரிக்க முயற்சிக்கும் மையப் பிரச்சினை இதுதான். ஒரு மெருகூட்டப்பட்ட வெளியீடு பாரம்பரிய அழகியல் அளவுகளில் நல்ல மதிப்பெண் பெறலாம்; ஆனால் நிகழ்வின் தர்க்கத்தில் தோல்வியடையும். எனவே WorldReasonBench மதிப்பீட்டை நான்கு காரணப்பகுதிகளாகவும் 22 உட்பிரிவுகளாகவும் பிரிக்கிறது.

  • உலக அறிவு, இதில் இயற்பியல், வானிலை, மற்றும் பண்பாட்டு நெறிமுறைகள் அடங்கும்
  • மனித மையக் காட்சிகள், பொருட்களை கையாளுதல் மற்றும் சமூக தொடர்பு போன்றவை
  • தர்க்கப்பூர்வ காரணம், கணிதம், வடிவியல், மற்றும் அறிவியல் பரிசோதனைகள் உட்பட
  • தகவல் அடிப்படையிலான காரணம், தரவு மற்றும் வரைபடங்களைப் படித்தல் போன்றவை

மூலப் பொருளின் படி, இந்த பெஞ்ச்மார்க்கில் சுமார் 400 சோதனை வழக்குகள் உள்ளன. ஆராய்ச்சியாளர்கள் அதனுடன் WorldRewardBench-ஐயும் இணைத்துள்ளனர்; இது பயிற்சி பெற்ற குறிப்பு வழங்குநர்களால் தரவரிசைப்படுத்தப்பட்ட சுமார் 6,000 வீடியோ ஒப்பீடுகளைக் கொண்ட விருப்பத் தரவுத் தொகுப்பு. அந்த இரண்டாவது தரவுத் தொகுப்பு, மாடல்களை வெறும் அப்ஸ்ட்ராக்ட் மதிப்பீட்டு விதிகளுடன் அல்லாது, நேருக்கு நேர் ஒப்பிடுவதற்காக உருவாக்கப்பட்டுள்ளது.

நம்பத்தகுந்த தன்மைக்கான இரு-நிலை மதிப்பீட்டு அமைப்பு

மதிப்பீட்டு செயல்முறை இரண்டு அடுக்குகளைப் பயன்படுத்துகிறது. முதலில், செயல்முறை-அறிவுடைய முறைமை கட்டமைக்கப்பட்ட கேள்விகளைக் கேட்டு, வீடியோ சரியான இறுதி நிலையை அடைந்ததா, மற்றும் அதை நம்பத்தகுந்த முறையில் அடைந்ததா என்பதைத் தீர்மானிக்கிறது. பின்னர் இரண்டாவது சுற்று, மூன்று பரந்த பண்புகளை மதிப்பிடுகிறது: காரணப்பூர்வ தரம், கால ஒற்றுமை, மற்றும் காட்சி அழகியல்.

இந்த வடிவமைப்பு குறிப்பிடத்தக்கது, ஏனெனில் அது வெளிப்பாட்டு தரத்தை நிராகரிக்கவில்லை. மாறாக, அதை அதன் சரியான இடத்தில் வைக்கிறது. பயனுள்ள ஒரு வீடியோ மாடல் காட்சியளவில் நம்பகமாக இருக்க வேண்டும் என்பதை பெஞ்ச்மார்க் ஏற்றுக்கொள்கிறது, ஆனால் அழகியலை முடிவின் ஒரு பகுதி மட்டுமே எனக் கருதுகிறது; முழுக் கதையல்ல.

இந்த துறைக்கு இது ஒரு முக்கியமான மாற்றம். படம் மற்றும் வீடியோ உருவாக்கத்தில், முன்னேற்றம் அடிக்கடி பாராட்ட எளிதாகவும், ஆய்வு செய்ய கடினமாகவும் இருக்கும் டெமோக்கள் மூலம் தெரிவிக்கப்படுகிறது. மேற்பரப்பு தரத்துக்கு பதிலாக விளைவுகளை மையமாகக் கொண்ட ஒரு பெஞ்ச்மார்க், குறிப்பாக உருவாக்கப்பட்ட வீடியோ வழிமுறைகள், பரிசோதனைகள், வரைபடங்கள், அல்லது உண்மையான உலகச் சம்பவங்களை காட்ட வேண்டிய பயன்பாடுகளில், கடுமையான தரநிலையை உருவாக்குகிறது.

வர்த்தக அமைப்புகள் முன்னிலை வகிக்கின்றன, ஆனால் எதுவும் முழுமை அருகிலும் இல்லை

ஆய்வாளர்கள் ஐந்து வர்த்தக அமைப்புகளையும் ஆறு திறந்த மூல மாடல்களையும் சோதித்தனர். வர்த்தக குழுவில் Sora 2, Kling, Wan 2.6, Seedance 2.0, மற்றும் Veo 3.1-Fast இடம்பெற்றன. திறந்த மூல குழுவில் LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, மற்றும் LongCat-Video இடம்பெற்றன.

பெஞ்ச்மார்க்கின் மைய காரணப்பூர்வ அளவுகோலில், வர்த்தக மாடல்கள் குறிப்பிடத்தக்க அளவில் சிறப்பாக செயல்பட்டன. மூலத்தின் படி, அவை திறந்த மூல அமைப்புகள் பெற்ற மதிப்பெண்களின் சுமார் இரட்டிப்பை பெற்றன, மேலும் இரு குழுகளுக்கும் இடையில் புள்ளியியல் ஒத்துப்போகல் இல்லை. இந்தக் கண்டுபிடிப்பு, பணிகள் தோற்றத்தை விட அதிகம் தேவைப்படும்போது, மிகவும் திறமையான சொந்த உரிமை மாடல்கள் இன்னும் தெளிவான முன்னிலையில் உள்ளன என்பதைக் காட்டுகிறது.

அதனால், விரிவான முடிவு வர்த்தக அமைப்புகள் வீடியோ காரணப்பூர்வத்தைத் தீர்த்துவிட்டன என்பது அல்ல. கட்டுரை கூறுவதாவது, சோதிக்கப்பட்ட ஒவ்வொரு மாடலிலும் தர்க்கம் இன்னும் குறுக்கே வந்தது. விழும் டொமினோக்கள், ஒரு கிளா மெஷின், மற்றும் ஒரு எளிய சுற்றுத்தொடர் போன்ற உதாரணங்களே கூட தோல்விகளை வெளிப்படுத்தப் போதுமானவையாக இருந்தன. மற்றொரு விதமாகச் சொன்னால், சிறந்த தயாரிப்புகள் இருக்கின்றன; ஆனால் வலுவான உலகப் புரிதல் இன்னும் எல்லாத் தளங்களிலும் இல்லாமல் உள்ளது.

இது ஒரு முக்கியமான முடிவு, ஏனெனில் இது உருவாக்கும் AI பற்றிய ஒரு பொதுவான முன்னணிக் கருதுகோளுக்கு எதிராக செல்கிறது: அதிக நிஜத்தன்மை கொண்ட வெளியீடுகள் ஆழமான திறனைச் சுட்டிக்காட்டும் என்பதற்கு. WorldReasonBench இதற்கு மாறாக, பல நேரங்களில் அப்படி இல்லாமல் இருக்கலாம் என்று தெரிவிக்கிறது. மாடல்கள் பாணியில் மேம்படும்போது, அவற்றின் மீதமுள்ள தோல்விகள் சாதாரண பார்வையாளர்களுக்கு கவனிக்க கடினமாகலாம், குறிப்பாக அந்தத் தோல்விகள் நடைமுறை சூழல்களில் முக்கியமானவையாக இருந்தால்.

பெஞ்ச்மார்க் தரவரிசைகளைக் கடந்துப் பார்த்தால் இது ஏன் முக்கியம்

இந்த பெஞ்ச்மார்க், AI வீடியோ கருவிகள் இப்போது வெறும் பொழுதுபோக்கு இயந்திரங்களாக மட்டுமல்லாமல், கல்வி, வடிவமைப்பு, ஒப்பிடல்முறை, தொடர்பாடல், மற்றும் தானியக்க உள்ளடக்க உற்பத்திக்கு இறுதியில் உதவக்கூடிய அமைப்புகளாகவும் மதிப்பிடப்படும் ஒரு தருணத்தில் வருகிறது. அத்தகைய சூழல்களில், நம்பத்தகுந்த தன்மை விருப்பத் தேர்வு அல்ல. இயக்கம், அளவு, அல்லது தொடர்பின் அழகான ஆனால் தவறான படத்தை உருவாக்கும் ஒரு மாடல் வெறும் குறைபாடுடையது மட்டுமல்ல. அது தவறான வழிகாட்டுதலாகவும் இருக்கலாம்.

ஆகவே WorldReasonBench பல்மாதிரி AI-யில் உள்ள ஒரு பரந்த சவாலைக் காட்டுகிறது. சாதாரண உடல் நடத்தையையோ அடிப்படை தர்க்க அமைப்பையோ அமைப்புகள் நம்பகமாக பிரதிபலிக்க முடியாவிட்டால், சிறந்த ரெண்டரிங் மட்டும் அவற்றை நம்பத்தகுந்ததாக மாற்றாது. இந்த ஆய்வு காட்சித் தரம் முக்கியமல்ல என்று வாதிடவில்லை. மாறாக, அந்த தரத்திற்கு இந்தத் துறை காரணப்பூர்வ சிந்தனையை விட அதிக மதிப்பளித்துள்ளது என்று வாதிடுகிறது.

இதனால் அதன் துல்லியமான தரவரிசைகள் காலத்துடன் மாறினாலும், இந்த பெஞ்ச்மார்க் பயனுள்ளதாக இருக்கிறது. இது வீடியோ உருவாக்கத்திற்கான இன்னும் கடுமையான ஒரு கேள்வியை வரையறுக்கிறது: ஒரு கிளிப் உண்மையாகத் தோன்றுகிறதா என்பது அல்ல, அது உண்மையான உலகத்தில் இருக்கும் போல் நடக்கிறதா என்பதுதான்.

இப்போதைக்கு, பதில் அதிகபட்சம் கலப்பானதே. முன்னணியில் உள்ள வர்த்தக அமைப்புகள் தெளிவாக முன்னிலையில் உள்ளன; ஆனால் பெஞ்ச்மார்க்கின் மையச் செய்தி எந்த லீடர்போர்டு முடிவையும் விட கூர்மையானது. AI வீடியோ இப்போது கண்கவர் காட்சிகளை உருவாக்க முடிகிறது. அது இன்னும் தானே உருவாக்கும் காட்சிகளைப் புரிந்துகொள்ள சிரமப்படுகிறது.

இந்த கட்டுரை The Decoder வெளியிட்ட செய்தியை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com