Google நுகர்வோர் AI வீடியோவின் எல்லையை விரிவாக்குகிறது

வழங்கப்பட்ட வேட்பாளர் பொருளின் படி, Google-இன் புதிய Gemini Omni திறன் AI-யால் உருவாக்கப்படும் வீடியோவில் ஒரு பெரிய முன்னேற்றமாக நிலைநிறுத்தப்படுகிறது. அதன் விளக்கம் மிகுந்த இலட்சியத்துடன் உள்ளது: பயனர்கள் text, images, audio மற்றும் video-ஐ inputs ஆக இணைத்து, உயர்தரமான videos உருவாக்கலாம், மேலும் தங்களைப் போலவே தோன்றியும் ஒலித்தும் இருக்கும் avatar-அடிப்படையிலான clips-ஐ கூட உருவாக்கலாம். அந்த தொகுப்பு விளம்பரப்படுத்தப்பட்டபடி செயல்பட்டால், Omni என்பது இன்னொரு model release மட்டும் அல்ல. இது multimodal video generation-ஐ பிரதான consumer மற்றும் creator workflow ஆக மாற்றும் முயற்சி.

மூலப் பொருள் Omni-யை வீடியோக்களுக்கு, முந்தைய ஒரு Google image release படங்களுக்கு செய்த அதே விதத்தில் வரையறுக்கிறது: உருவாக்கத் தரம் மற்றும் கட்டுப்படுத்தும் திறன் தொடர்பாக பயனர்கள் எதிர்பார்க்கும் அடிப்படை அளவை உயர்த்துதல். அந்த ஒப்பீடு முக்கியமானது, ஏனெனில் video, still imagery-யை விட coherence, editing, identity consistency மற்றும் நம்பத்தகுந்த movement போன்ற பல முனைகளில் நீண்ட காலமாக கடினமாக இருந்து வருகிறது. Omni அந்த இடைவெளிகளை போதுமான அளவு குறைத்து, video generation-ஐ சிறப்பு demo ஆக வைத்திருப்பதற்கு பதிலாக தினசரி பயன்பாட்டு products-களுக்குள் கொண்டுவருகிறது என்று Google வாதிடுகிறதுபோல் தெரிகிறது.

Omni-யை குறிப்பிடத்தக்கதாக 만드는வை

வழங்கப்பட்ட செய்தியில் இருந்து மூன்று கூறுகள் தெளிவாகத் தோன்றுகின்றன. முதலாவது multimodal input. பயனர்கள் ஒரே prompt வகைக்கு கட்டுப்படாமல் text, images, audio அல்லது video-வுடன் தொடங்கலாம் என்று Google கூறுகிறது. இது rough footage, reference image, script, voice track அல்லது சாதாரண மொழி instruction ஆகியவற்றில் ஒன்றைத் தொடக்கமாகக் கொள்ளக்கூடிய, மேலும் நெகிழ்வான production environment-ஐ சுட்டிக்காட்டுகிறது.

இரண்டாவது tiered deployment. வேட்பாளர் உரையில் Omni முதலில் Gemini Omni Flash ஆக launch ஆகிறது என்றும், Gemini app, Google Flow மற்றும் YouTube Shorts-க்கு வருகிறது என்றும் கூறப்படுகிறது. அந்த distribution path model branding-ஐ விட முக்கியமானது. அது video generation-ஐ, குறிப்பாக short-form creation environments-ல், ஏற்கனவே பயனர்கள் அதிக நேரம் செலவிடும் இடத்தில் கொண்டுச்செல்கிறது.

மூன்றாவது avatar generation. பயனர்கள் தங்களின் digital version-ஐ உருவாக்கி, தங்களைப் போலவே தோன்றியும் ஒலித்தும் இருக்கும் videos-ஐ generate செய்யலாம் என்று Google கூறுகிறது. இது தொகுப்பின் commercially attractive அம்சமாக இருக்கலாம், ஏனெனில் இது ஒரு உண்மையான creator pain point-ஐத் தொடுகிறது: ஒவ்வொரு முறையும் camera முன் இல்லாமல் polished video உருவாக்குவது. அதே சமயம், உடனடியாக கவலைகளை எழுப்பக்கூடிய அம்சமும் இதுவே.

நம்பிக்கை பிரச்சினை தயாரிப்போடு சேர்ந்து வருகிறது

ஒரு creator-ஐ அதிக திறமையாக வெளியிட உதவும் அதே திறன் identity simulation-ஐயும் எளிதாக்குகிறது. வழங்கப்பட்ட source text privacy, realism மற்றும் trust குறித்த கவலைகளை வெளிப்படையாக எழுப்புகிறது. அதுவே சரியான framing. ஒரு platform, ஒருவரின் likeness மற்றும் voice-ஐ அடிப்படையாகக் கொண்டு video உருவாக்க முடிந்தவுடன், மையக் கேள்வி output எவ்வளவு நன்றாகத் தெரிகிறது என்பதல்ல. பார்வையாளர்கள் synthetic என்ன, edited என்ன, authentic என்ன என்பதை நம்பத்தகுந்த முறையில் வேறுபடுத்த முடியுமா என்பதே கேள்வி.

அந்தக் கவலைகள் abstract அல்ல. Text மற்றும் still images எப்போதும் வழங்காத evidentiary aura-வை video நீண்ட காலமாக கொண்டிருந்தது. Synthetic production மேம்படும் போது, அந்த முன்னிலை பலவீனமாகிறது. Avatar-அடிப்படையிலான clips consumer products-களில் பொதுவானால், labeling, provenance மற்றும் policy ஆகியவை policy afterthoughts ஆக இல்லாமல் product requirements ஆக மாறும்.

Google இந்த வாய்ப்பின் அளவை புரிந்துள்ளதாகத் தெரிகிறது, ஆனால் வழங்கப்பட்ட பொருள் முக்கிய implementation details-ஐ திறந்தவிடுகிறது. அந்தத் தெளிவின்மை கதையின் ஒரு பகுதியாகும். Omni எங்கு கிடைக்கிறது, output எவ்வாறு குறிக்கப்படுகிறது, identity use-க்கு எந்த safeguards பொருந்துகின்றன, generated clips Google ecosystem-ல் எப்படி நகர்கின்றன என்பவை அனைத்தும் இந்த feature பயனுள்ள creative tool ஆக அமையுமா அல்லது synthetic media distrust-இன் புதிய அலைகளை வேகப்படுத்துமா என்பதை தீர்மானிக்கும்.

ஒரே நேரத்தில் creator tool மற்றும் platform risk

Production பார்வையில் Omni-ஐ புரிந்துகொள்வது எளிது. Creators விரைவான iteration, style control, சுத்தமான editing மற்றும் formats-களுக்கிடையே assets-ஐ மீண்டும் பயன்படுத்தும் திறனை விரும்புகிறார்கள். Mixed inputs-ஐ ஏற்று, polished video-வைத் திருப்பித் தரும் ஒரு system, content உருவாக்குவதற்கான நடைமுறை தடையை குறைக்கிறது. அதனால்தான் இந்த feature marketing, education, explainers மற்றும் short-form entertainment across-களில் ஈர்ப்பானதாக இருக்க வாய்ப்புள்ளது.

ஆனால் creation-இன் அதே எளிமை platforms-ஐ synthetic output-ஆல் நிரப்பவும் முடியும். மூலப் பொருள், பயனுள்ள உண்மையான work-உடன் கூடுதலாக அதிக AI slop வரக்கூடிய சாத்தியத்தைக் குறிப்பிடுகிறது. இப்போது generative media-வின் பெரும் பகுதியை அந்த tension வரையறுக்கிறது. சிறந்த tools உயர்ந்த எல்லையை மட்டும் மேம்படுத்துவதில்லை. அவை passable content-ன் அளவையும் வியத்தகு வகையில் உயர்த்துகின்றன.

YouTube Shorts மற்றும் தொடர்புடைய surfaces-க்கு, இது editorial issue ஆக மட்டுமன்றி economic issue ஆகவும் மாறலாம். Video உருவாக்கம் மலிவாகும்போது, system-க்குள் அதிக content வருகிறது, attention-க்கு போட்டி தீவிரமாகிறது, மேலும் authenticity ஒரு வலுவான differentiator ஆகிறது. அப்போது platforms-க்கு கடினமான moderation challenge உருவாகிறது: பாதிப்பான deepfakes மட்டும் அல்ல, அனுமதிக்கப்பட்ட, persuasive மற்றும் பெரிய அளவில் context-இல் புரிந்துகொள்ள கடினமான synthetic content-இன் பரந்த வகையும் இதில் அடங்கும்.

ஒரு release-ஐ விட அதிகமாக Omni ஏன் முக்கியம்

Omni-யின் ஆழமான முக்கியத்துவம், reasoning models-ஐ media generation-உடன் இணைக்கும் Google முயற்சியை அது முன்னேற்றுவதாகும். source text-இல் உள்ள product language அந்த connection-ஐ வலியுறுத்துகிறது. இலக்கு, prompts-இல் இருந்து clips உருவாக்குவது மட்டும் அல்ல; output-ஐ பரந்த knowledge மற்றும் பலவகையான input forms-ல் grounding செய்வதே. அது வெற்றியடைந்தால், generative media systems தனித்த novelty tools போல அல்லாமல் production environments போல நடந்து கொள்கின்ற ஒரு எதிர்காலத்தை அது சுட்டிக்காட்டுகிறது.

அந்த எதிர்காலம் பரிச்சயமான tradeoffs-களோடு வருகிறது. சிறந்த interfaces, legitimate creators-ஐ வேகமாக வேலை செய்ய உதவும். அதே நேரத்தில் synthetic identity மற்றும் persuasive fabrication-ஐ உருவாக்குவதையும் எளிதாக்கும். Omni அந்த dilemma-வை உருவாக்கவில்லை, ஆனால் அதை சாதாரண பயன்பாட்டிற்கு மேலும் அருகில் கொண்டு வருகிறது.

அதனால் Google-இன் release இரண்டு நிலைகளில் முக்கியமானது. இது அதிக சக்திவாய்ந்த AI video generation-ஐப் பற்றிய capability story. அதே சமயம் அந்த திறனை consumer-facing products-களில் வைப்பதைக் குறிக்கும் distribution story. இந்த இரண்டும் ஒன்றிணைந்தவுடன், தொழில் experimentation-இலிருந்து normalization-க்கு நகர்கிறது.

இந்த கட்டுரை ZDNET-இன் செய்திப்பரப்பை அடிப்படையாகக் கொண்டது. மூல கட்டுரையைப் படிக்கவும்.

Originally published on zdnet.com