AI வீடியோ பெஞ்ச்மார்க், காட்சி தரத்திற்குப் பின்னால் உலக தர்க்கம் இன்னும் தாமதமாக இருப்பதை காட்டுகிறது

AI வீடியோ இப்போது அதிக நம்பகமாகத் தோன்றுகிறது, ஆனால் அவசியமாக அதிக அறிவார்ந்ததாக இல்லை

AI வீடியோ அமைப்புகளின் சமீபத்திய தலைமுறை, முன் மாடல்களைக் காட்டிலும் மென்மையான இயக்கம், வலுவான ஒளியமைப்பு, மற்றும் மேலும் நிஜத்தன்மை கொண்ட உருமாற்றங்களுடன், அதிக மெருகூட்டப்பட்டதாகத் தோன்றும் கிளிப்புகளை உருவாக்க முடிகிறது. ஆனால் Tsinghua University ஆய்வாளர்கள் முன்வைத்த ஒரு புதிய பெஞ்ச்மார்க், காட்சித் தரம் ஒரு ஆழமான வரம்பை மறைத்துக் கொண்டிருக்கிறது என்று வாதிடுகிறது: பல அமைப்புகள் இன்னும் உலகம் எப்படி செயல்பட வேண்டும் என்பதைப் புரிந்துகொள்ளவில்லை.

WorldReasonBench என்ற இந்த பெஞ்ச்மார்க், ஒரு மாடல் ஒரு காட்சியை உடல், சமூக, தர்க்க, மற்றும் தகவல் ரீதியாக நம்பத்தகுந்ததாகத் தொடர முடியுமா என்பதை அளவிட உருவாக்கப்பட்டுள்ளது. இது ஒரு வீடியோ வெறுமனே நன்றாகத் தோன்றுகிறதா என்ற கேள்வியிலிருந்து வேறுபட்டது. ஆய்வாளர்களின் பார்வையில், தோற்றத்தில் உள்ள நிஜத்தன்மை, காரணப்பூர்வமான சிந்தனையில் உள்ள நிஜத்தன்மை அல்ல.

இந்த வேறுபாடு முக்கியமானது, ஏனெனில் உருவாக்கும் வீடியோவில் தலைப்புச் செய்திகள் ஆகும் பல உதாரணங்கள், முதலில் பார்க்கும் போது பாணி மற்றும் ஒற்றுமை அடிப்படையிலேயே மதிப்பிடப்படுகின்றன. ஒரு கிளிப் திரைப்படத் தன்மையுடனும் ஓட்டமுள்ளதாகவும் தோன்றலாம், ஆனால் ஈர்ப்பு விசை, பொருட்களின் நடத்தை, மனித தொடர்பு, அல்லது காரணம்-விளைவு பற்றிய வழக்கமான எதிர்பார்ப்புகளை மீறக்கூடும். WorldReasonBench அந்த இடைவெளியைத் துல்லியமாக வெளிப்படுத்த உருவாக்கப்பட்டுள்ளது.

இந்த பெஞ்ச்மார்க் உலகப் புரிதலை எப்படிப் பரிசோதிக்கிறது

படத் தரத்தை மதிப்பிடுவதற்குப் பதிலாக, இந்த பெஞ்ச்மார்க் ஒரு காட்சியிலிருந்து தொடங்கி, அதனை அர்த்தமுள்ளதாகத் தொடருமாறு மாடலைக் கேட்கிறது. மூலக் கட்டுரை ஒரு எளிய உதாரணத்தை எடுத்துக்காட்டுகிறது: ஒரு கிளையில் இருக்கும் ஆப்பிள், பின்னர் அதை விழச் செய்யும் உத்தரவு. ஒரு அமைப்பு அழகான வரிசையை உருவாக்கலாம்; ஆனால் ஆப்பிள் மேலே நகர்ந்தால், பலூன் போல நடந்து கொண்டால், அல்லது நம்பத்தகாத விதத்தில் விழுந்தால், அந்த பணியில் அது தோல்வியடையும்.

பெஞ்ச்மார்க் தனியாகப் பிரிக்க முயற்சிக்கும் மையப் பிரச்சினை இதுதான். ஒரு மெருகூட்டப்பட்ட வெளியீடு பாரம்பரிய அழகியல் அளவுகளில் நல்ல மதிப்பெண் பெறலாம்; ஆனால் நிகழ்வின் தர்க்கத்தில் தோல்வியடையும். எனவே WorldReasonBench மதிப்பீட்டை நான்கு காரணப்பகுதிகளாகவும் 22 உட்பிரிவுகளாகவும் பிரிக்கிறது.

உலக அறிவு, இதில் இயற்பியல், வானிலை, மற்றும் பண்பாட்டு நெறிமுறைகள் அடங்கும்
மனித மையக் காட்சிகள், பொருட்களை கையாளுதல் மற்றும் சமூக தொடர்பு போன்றவை
தர்க்கப்பூர்வ காரணம், கணிதம், வடிவியல், மற்றும் அறிவியல் பரிசோதனைகள் உட்பட
தகவல் அடிப்படையிலான காரணம், தரவு மற்றும் வரைபடங்களைப் படித்தல் போன்றவை

மூலப் பொருளின் படி, இந்த பெஞ்ச்மார்க்கில் சுமார் 400 சோதனை வழக்குகள் உள்ளன. ஆராய்ச்சியாளர்கள் அதனுடன் WorldRewardBench-ஐயும் இணைத்துள்ளனர்; இது பயிற்சி பெற்ற குறிப்பு வழங்குநர்களால் தரவரிசைப்படுத்தப்பட்ட சுமார் 6,000 வீடியோ ஒப்பீடுகளைக் கொண்ட விருப்பத் தரவுத் தொகுப்பு. அந்த இரண்டாவது தரவுத் தொகுப்பு, மாடல்களை வெறும் அப்ஸ்ட்ராக்ட் மதிப்பீட்டு விதிகளுடன் அல்லாது, நேருக்கு நேர் ஒப்பிடுவதற்காக உருவாக்கப்பட்டுள்ளது.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 மணி நேர ரோபோடிக்ஸ் தரவுத்தொகுப்பை ஓபன்-சோர்ஸ் செய்தது

X Square Robot, embodied AI அமைப்புகளுக்குத் தேவையான உண்மை-ரோபோ பயிற்சி தரவின் அளவைக் குறைப்பதை நோக்கமாகக் கொண்டு XRZero-G0 மற்றும் 2,000 மணி நேர பல்மாதிரி தரவுத்தொகுப்பை வெளியிட்டுள்ளது.

Read article

நம்பத்தகுந்த தன்மைக்கான இரு-நிலை மதிப்பீட்டு அமைப்பு

மதிப்பீட்டு செயல்முறை இரண்டு அடுக்குகளைப் பயன்படுத்துகிறது. முதலில், செயல்முறை-அறிவுடைய முறைமை கட்டமைக்கப்பட்ட கேள்விகளைக் கேட்டு, வீடியோ சரியான இறுதி நிலையை அடைந்ததா, மற்றும் அதை நம்பத்தகுந்த முறையில் அடைந்ததா என்பதைத் தீர்மானிக்கிறது. பின்னர் இரண்டாவது சுற்று, மூன்று பரந்த பண்புகளை மதிப்பிடுகிறது: காரணப்பூர்வ தரம், கால ஒற்றுமை, மற்றும் காட்சி அழகியல்.

இந்த வடிவமைப்பு குறிப்பிடத்தக்கது, ஏனெனில் அது வெளிப்பாட்டு தரத்தை நிராகரிக்கவில்லை. மாறாக, அதை அதன் சரியான இடத்தில் வைக்கிறது. பயனுள்ள ஒரு வீடியோ மாடல் காட்சியளவில் நம்பகமாக இருக்க வேண்டும் என்பதை பெஞ்ச்மார்க் ஏற்றுக்கொள்கிறது, ஆனால் அழகியலை முடிவின் ஒரு பகுதி மட்டுமே எனக் கருதுகிறது; முழுக் கதையல்ல.

இந்த துறைக்கு இது ஒரு முக்கியமான மாற்றம். படம் மற்றும் வீடியோ உருவாக்கத்தில், முன்னேற்றம் அடிக்கடி பாராட்ட எளிதாகவும், ஆய்வு செய்ய கடினமாகவும் இருக்கும் டெமோக்கள் மூலம் தெரிவிக்கப்படுகிறது. மேற்பரப்பு தரத்துக்கு பதிலாக விளைவுகளை மையமாகக் கொண்ட ஒரு பெஞ்ச்மார்க், குறிப்பாக உருவாக்கப்பட்ட வீடியோ வழிமுறைகள், பரிசோதனைகள், வரைபடங்கள், அல்லது உண்மையான உலகச் சம்பவங்களை காட்ட வேண்டிய பயன்பாடுகளில், கடுமையான தரநிலையை உருவாக்குகிறது.

வர்த்தக அமைப்புகள் முன்னிலை வகிக்கின்றன, ஆனால் எதுவும் முழுமை அருகிலும் இல்லை

ஆய்வாளர்கள் ஐந்து வர்த்தக அமைப்புகளையும் ஆறு திறந்த மூல மாடல்களையும் சோதித்தனர். வர்த்தக குழுவில் Sora 2, Kling, Wan 2.6, Seedance 2.0, மற்றும் Veo 3.1-Fast இடம்பெற்றன. திறந்த மூல குழுவில் LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, மற்றும் LongCat-Video இடம்பெற்றன.

பெஞ்ச்மார்க்கின் மைய காரணப்பூர்வ அளவுகோலில், வர்த்தக மாடல்கள் குறிப்பிடத்தக்க அளவில் சிறப்பாக செயல்பட்டன. மூலத்தின் படி, அவை திறந்த மூல அமைப்புகள் பெற்ற மதிப்பெண்களின் சுமார் இரட்டிப்பை பெற்றன, மேலும் இரு குழுகளுக்கும் இடையில் புள்ளியியல் ஒத்துப்போகல் இல்லை. இந்தக் கண்டுபிடிப்பு, பணிகள் தோற்றத்தை விட அதிகம் தேவைப்படும்போது, மிகவும் திறமையான சொந்த உரிமை மாடல்கள் இன்னும் தெளிவான முன்னிலையில் உள்ளன என்பதைக் காட்டுகிறது.

அதனால், விரிவான முடிவு வர்த்தக அமைப்புகள் வீடியோ காரணப்பூர்வத்தைத் தீர்த்துவிட்டன என்பது அல்ல. கட்டுரை கூறுவதாவது, சோதிக்கப்பட்ட ஒவ்வொரு மாடலிலும் தர்க்கம் இன்னும் குறுக்கே வந்தது. விழும் டொமினோக்கள், ஒரு கிளா மெஷின், மற்றும் ஒரு எளிய சுற்றுத்தொடர் போன்ற உதாரணங்களே கூட தோல்விகளை வெளிப்படுத்தப் போதுமானவையாக இருந்தன. மற்றொரு விதமாகச் சொன்னால், சிறந்த தயாரிப்புகள் இருக்கின்றன; ஆனால் வலுவான உலகப் புரிதல் இன்னும் எல்லாத் தளங்களிலும் இல்லாமல் உள்ளது.

இது ஒரு முக்கியமான முடிவு, ஏனெனில் இது உருவாக்கும் AI பற்றிய ஒரு பொதுவான முன்னணிக் கருதுகோளுக்கு எதிராக செல்கிறது: அதிக நிஜத்தன்மை கொண்ட வெளியீடுகள் ஆழமான திறனைச் சுட்டிக்காட்டும் என்பதற்கு. WorldReasonBench இதற்கு மாறாக, பல நேரங்களில் அப்படி இல்லாமல் இருக்கலாம் என்று தெரிவிக்கிறது. மாடல்கள் பாணியில் மேம்படும்போது, அவற்றின் மீதமுள்ள தோல்விகள் சாதாரண பார்வையாளர்களுக்கு கவனிக்க கடினமாகலாம், குறிப்பாக அந்தத் தோல்விகள் நடைமுறை சூழல்களில் முக்கியமானவையாக இருந்தால்.

Our new community investments in Virginia support local jobs and expand energy affordability.

கூகுள் விர்ஜினியாவில் முதலீடு செய்கிறது: $15 மில்லியன் ஆற்றல் நிதி மற்றும் 2,741 அப்ரென்டிஷிப் வாய்ப்புகள்

உள்ளூர் வேலைவாய்ப்புகளையும் ஆற்றல் செலவுக்கான சாத்தியத்தையும் உயர்த்த, கூகுள் விர்ஜினியாவில் $15 மில்லியன் Energy Impact Fund மற்றும் 2,741 மின்துறை அப்ரென்டிஷிப் வாய்ப்புகளுக்கு ஆதரவு அறிவித்துள்ளது.

Read article

பெஞ்ச்மார்க் தரவரிசைகளைக் கடந்துப் பார்த்தால் இது ஏன் முக்கியம்

இந்த பெஞ்ச்மார்க், AI வீடியோ கருவிகள் இப்போது வெறும் பொழுதுபோக்கு இயந்திரங்களாக மட்டுமல்லாமல், கல்வி, வடிவமைப்பு, ஒப்பிடல்முறை, தொடர்பாடல், மற்றும் தானியக்க உள்ளடக்க உற்பத்திக்கு இறுதியில் உதவக்கூடிய அமைப்புகளாகவும் மதிப்பிடப்படும் ஒரு தருணத்தில் வருகிறது. அத்தகைய சூழல்களில், நம்பத்தகுந்த தன்மை விருப்பத் தேர்வு அல்ல. இயக்கம், அளவு, அல்லது தொடர்பின் அழகான ஆனால் தவறான படத்தை உருவாக்கும் ஒரு மாடல் வெறும் குறைபாடுடையது மட்டுமல்ல. அது தவறான வழிகாட்டுதலாகவும் இருக்கலாம்.

ஆகவே WorldReasonBench பல்மாதிரி AI-யில் உள்ள ஒரு பரந்த சவாலைக் காட்டுகிறது. சாதாரண உடல் நடத்தையையோ அடிப்படை தர்க்க அமைப்பையோ அமைப்புகள் நம்பகமாக பிரதிபலிக்க முடியாவிட்டால், சிறந்த ரெண்டரிங் மட்டும் அவற்றை நம்பத்தகுந்ததாக மாற்றாது. இந்த ஆய்வு காட்சித் தரம் முக்கியமல்ல என்று வாதிடவில்லை. மாறாக, அந்த தரத்திற்கு இந்தத் துறை காரணப்பூர்வ சிந்தனையை விட அதிக மதிப்பளித்துள்ளது என்று வாதிடுகிறது.

இதனால் அதன் துல்லியமான தரவரிசைகள் காலத்துடன் மாறினாலும், இந்த பெஞ்ச்மார்க் பயனுள்ளதாக இருக்கிறது. இது வீடியோ உருவாக்கத்திற்கான இன்னும் கடுமையான ஒரு கேள்வியை வரையறுக்கிறது: ஒரு கிளிப் உண்மையாகத் தோன்றுகிறதா என்பது அல்ல, அது உண்மையான உலகத்தில் இருக்கும் போல் நடக்கிறதா என்பதுதான்.

இப்போதைக்கு, பதில் அதிகபட்சம் கலப்பானதே. முன்னணியில் உள்ள வர்த்தக அமைப்புகள் தெளிவாக முன்னிலையில் உள்ளன; ஆனால் பெஞ்ச்மார்க்கின் மையச் செய்தி எந்த லீடர்போர்டு முடிவையும் விட கூர்மையானது. AI வீடியோ இப்போது கண்கவர் காட்சிகளை உருவாக்க முடிகிறது. அது இன்னும் தானே உருவாக்கும் காட்சிகளைப் புரிந்துகொள்ள சிரமப்படுகிறது.

இந்த கட்டுரை The Decoder வெளியிட்ட செய்தியை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com