70+ மொழிகளுடன் Google, மேலும் வெளிப்பாட்டுத்தன்மை கொண்ட Gemini 3.1 Flash TTS-ஐ வெளியிட்டது

programmable voice-க்கான விரிவான முயற்சி

Google தனது generative audio வழங்கலை Gemini 3.1 Flash text-to-speech மூலம் விரிவாக்குகிறது; இதனை நிறுவனம் இதுவரை தனது மிகவும் இயல்பான மற்றும் வெளிப்பாட்டுத்தன்மை மிகுந்த speech system என்று விவரிக்கிறது. The Decoder வெளியிட்ட இந்த புதுப்பிப்பு raw voice quality மட்டும் அல்ல, controllability-யையும் கவனத்தில் கொள்கிறது; இதனால் developers generated speech எப்படிச் звучит என்பதை நேரடியாக வடிவமைக்க மேலும் வழிகள் பெறுகின்றனர்.

முக்கிய அம்சம் audio tags என்ற அமைப்பு: style, tempo, tone, accent ஆகியவற்றை பயனர்கள் வழிநடத்த text commands. இது முக்கியம், ஏனெனில் text-to-speech-இல் நீண்டகால பிரச்சினை என்பது ஒலியை நிஜமானதாக மாற்றுவது மட்டும் அல்ல, product தேவைகளுடன் பொருந்தும் வகையில் நம்பகமாக வெளிப்பாட்டுடன் உருவாக்குவதும் ஆகும். Assistants, narrated explainers, customer-service flows, கல்வி உள்ளடக்கம், மற்றும் dialog-heavy applications—all வெவ்வேறு pacing மற்றும் vocal styles-இல் பயன் பெறுகின்றன.

இந்த கட்டுப்பாடுகளை எளிய text instructions ஆக வெளிப்படுத்துவதன் மூலம், prompt design மற்றும் voice output இடையிலான friction-ஐ Google குறைக்கிறது போல தெரிகிறது. Tone மற்றும் delivery-யை opaque model behavior ஆகக் கருதுவதற்குப் பதிலாக, platform அவற்றை developers திட்டமிட்டு பாதிக்கக்கூடிய parameters ஆக முன்வைக்கிறது.

மொழி பரவல் மற்றும் multi-speaker ஆதரவு

அறிக்கையின் படி, Gemini 3.1 Flash TTS 70-க்கும் மேற்பட்ட மொழிகளை ஆதரிக்கிறது மற்றும் multi-speaker dialogs உருவாக்க முடியும். இந்த இரண்டு திறன்களும் model-ஐ ஆங்கில demo-களுக்கு மட்டுமல்ல, உலகளாவிய products மற்றும் மேலும் சிக்கலான media workflows-க்கும் பொருத்தமாக்குகின்றன.

AI voice-இல் மொழி ஆதரவு அதிகமாக ஒரு competitive differentiator ஆகிறது. பல applications-க்கு ஒரு model family பல markets-க்கு சேவை செய்ய வேண்டும்; region-specific providers-ன் patchwork தேவைப்படக் கூடாது. Multi-speaker dialog support கூட பயனுள்ளது, ஏனெனில் conversational lessons, dramatized narration, மற்றும் short-form media-க்கான synthetic host exchanges போன்ற richer formats-க்கு வழி திறக்கிறது.

இந்த சேர்க்கை Google developer tooling மற்றும் enterprise deployment இரண்டையும் நோக்கமாகக் கொண்டுள்ளது என்பதைக் காட்டுகிறது. Gemini API, enterprise users-க்கான Vertex AI, Workspace users-க்கான Google Vids, மற்றும் free experimentation-க்கான AI Studio ஆகிய வழிகளில் கிடைப்பது இதை மேலும் உறுதிப்படுத்துகிறது. product prototyping மற்றும் production channels இரண்டிலும் ஒரே நேரத்தில் நிலைநிறுத்தப்படுகிறது.

Create, edit and star in videos with two Google Vids updates

Google Vids-இல் Gemini Omni மற்றும் தனிப்பட்ட அவதாரங்கள் சேர்க்கப்பட்டன

Google Workspace-இல் AI வீடியோ உருவாக்கத்தை Google விரிவுபடுத்துகிறது; இதில் prompt-அடிப்படையிலான கிளிப் உருவாக்கம், திருத்தம், மேலும் selfie மற்றும் குரல் பதிவில் இருந்து உருவாக்கப்படும் தனிப்பயன் அவதாரங்களும் உள்ளன.

Read article

free மற்றும் paid tiers இடையிலான pricing மற்றும் data-use பிரிவு

model-ன் economics-ும் தெளிவாக உள்ளன. The Decoder free tier இருப்பதாகவும், free-tier data-வை Google தனது products-ஐ மேம்படுத்த பயன்படுத்துவதாகவும் கூறுகிறது. paid tier-க்கு text input-க்கு $1.00 per million tokens மற்றும் audio output-க்கு $20.00 per million tokens விலை நிர்ணயிக்கப்பட்டுள்ளது; batch mode-ல் அவை பாதியாகக் குறைந்து முறையே $0.50 மற்றும் $10.00 ஆகின்றன. paid tier-ல் Google data-வை product improvement-க்கு பயன்படுத்தாது.

இந்த பிரிவு AI infrastructure-இல் பரவலாகக் காணப்படும் pattern-ஐ பிரதிபலிக்கிறது: experimentation-க்கு low-friction testing, commercial use-க்கு மேலும் தெளிவான data-treatment எல்லைகள். பல developers-க்கு, குறிப்பாக customer-facing அல்லது regulated products-ல் பணிபுரிவோருக்கு, data-use terms benchmark performance-ஐப் போலவே முக்கியமாக இருக்கலாம்.

pricing model Google capability-யோடு சேர்த்து value-யிலும் போட்டியிடுகிறது என்பதையும் காட்டுகிறது. Text-to-speech இப்போது specialized voice startups மற்றும் பெரிய cloud incumbents நிறைந்த சந்தை; எனவே cost-performance சமநிலை adoption-க்கு முடிவெடுக்கும் காரணியாகலாம்.

இதைக் எப்படி benchmark செய்கிறார்கள்

அறிக்கை Artificial Analysis-ஐ குறிப்பிடுகிறது; அதில் Gemini 3.1 Flash TTS-க்கு 1,211 Elo rating இருப்பதாகக் கூறப்படுகிறது. overall quality-ல் இது ElevenLabs v3-ஐ மிஞ்சுகிறது, மேலும் Inworld 1.5 Max-க்கு மட்டும் பின்னிலையில் உள்ளது என்றும் கூறுகிறது. இந்த நிலைகள் காலப்போக்கில் தொடர்ந்தாலும் இல்லையாலும், benchmark context சேர்க்கப்படுவது முக்கியம், ஏனெனில் voice market novelty-யைத் தாண்டி வளர்ந்துவிட்டது. வாங்குபவர்கள் quality, latency, controllability, price ஆகியவற்றில் அளவிடக்கூடிய ஒப்பீடுகளை அதிகமாக எதிர்பார்க்கிறார்கள்.

Google quality-to-price ratio-க்கு அளிக்கும் முக்கியத்துவம் இந்த சந்தைக்கு பதிலளிக்கவே போல் தெரிகிறது. ranking-களில் மேல்நிலைக்கு அருகில் இருந்தும் aggressively priced model, குறிப்பாக அதிக அளவு audio output உள்ள deployments-க்கு, நியாயப்படுத்த எளிதாகிறது.

release-ன் ஒரு பகுதியாக watermarking

அறிக்கையின் படி, model உருவாக்கும் ஒவ்வொரு audio file-க்கும் Google SynthID watermark இடப்படுகிறது. synthetic media governance நடைமுறை product issue ஆகி வரும் காலத்தில், இது ஒரு முக்கிய implementation detail; வெறும் abstract ethics விவாதம் அல்ல.

Watermarking misuse கவலைகளை முற்றிலும் நீக்காது, ஆனால் provenance release architecture-இல் சேர்க்கப்படுகிறது என்பதை இது காட்டுகிறது. enterprise customers மற்றும் platform operators-க்கு, authenticity மற்றும் disclosure முக்கியமான சூழல்களில் voice generation அளவைக் கூட்ட Google எதிர்பார்க்கிறது என்பதற்கான அர்த்தமுள்ள சிக்னலாக இது இருக்கலாம்.

மிகவும் போட்டித்தன்மை கொண்ட AI voice stack

இந்த release-ன் பரந்த முக்கியத்துவம் என்னவெனில், voice output-ஐ மேலும் programmable, மேலும் multilingual, மேலும் Google product ecosystem-இல் எளிதாக அணுகக்கூடியதாக மாற்றுவதன் மூலம் multimodal AI-இல் Google-ன் நிலையை இது வலுப்படுத்துகிறது. பல applications-க்கு text generation மட்டும் போதுமானதல்ல. Teams இப்போது text, image, video, audio capabilities-ஐ ஒருங்கிணைத்து இயக்க விரும்புகின்றன.

Gemini 3.1 Flash TTS அத்தகைய சூழலுக்காக வடிவமைக்கப்பட்டதாக தெரிகிறது. model-ன் expressive controls, பரவலான மொழி ஆதரவு, multi-speaker திறன், preview availability, pricing structure—all practical deployment story-யைச் சுட்டுகின்றன, research-only announcement-ஐ அல்ல.

இது developers-ன் default choice ஆகுமா என்பது நிஜ உலக சோதனைகளின் மீது சார்ந்திருக்கும்; ஆனால் release ஒன்று தெளிவாகச் சொல்கிறது: generative AI voice-இல் போட்டி இனி மனிதப் போன்ற ஒலி பற்றியதல்ல. அது precision, integration, economics, மற்றும் trust features அனைத்தையும் ஒரே package-ஆக வழங்குவதைக் குறிக்கிறது.

இந்தக் கட்டுரை The Decoder-ன் செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

Google, Gemini speech tools-ஐ அதிக வெளிப்பாட்டுத்தன்மை கொண்ட TTS model-உடன் விரிவாக்குகிறது