دفع أوسع نحو الصوت القابل للبرمجة
توسّع Google عرضها للصوت التوليدي عبر إطلاق Gemini 3.1 Flash text-to-speech، وهو نموذج جديد تصفه الشركة بأنه أكثر أنظمة الكلام طبيعيةً وتعبيراً لديها حتى الآن. وتركّز هذه الترقية، كما ورد في تقرير The Decoder، على قابلية التحكم بقدر تركيزها على جودة الصوت الخام، مانحةً المطورين طرقاً مباشرة أكثر لتشكيل شكل الكلام المولَّد.
الميزة الأبرز هي نظام من وسمات الصوت: أوامر نصية تتيح للمستخدمين توجيه الأسلوب والسرعة والنبرة واللهجة. وهذا مهم لأن أحد التحديات المستمرة في تحويل النص إلى كلام لا يتمثل فقط في جعل الصوت يبدو واقعياً، بل في جعله معبّراً بشكل موثوق بطرق تتوافق مع احتياجات المنتج. فالمساعدون، والشروحات المروية، ومسارات خدمة العملاء، والمحتوى التعليمي، والتطبيقات كثيفة الحوار كلها تستفيد من إيقاعات وأنماط صوتية مختلفة.
ومن خلال إتاحة هذه الضوابط على هيئة تعليمات نصية بسيطة، تبدو Google وكأنها تخفف الاحتكاك بين تصميم المطالبات ومخرجات الصوت. فبدلاً من التعامل مع النبرة وطريقة الأداء بوصفهما سلوكاً غامضاً للنموذج، تعرضهما المنصة كمعايير يمكن للمطورين التأثير فيها بشكل مقصود.
اتساع اللغات ودعم تعدد المتحدثين
بحسب التقرير، يدعم Gemini 3.1 Flash TTS أكثر من 70 لغة ويمكنه إنشاء حوارات متعددة المتحدثين. هاتان القدرتان تجعلانه مناسباً ليس فقط للعروض التوضيحية باللغة الإنجليزية، بل أيضاً للمنتجات العالمية وسير العمل الإعلامي الأكثر تعقيداً.
أصبح مدى اللغات عاملاً تنافسياً مهماً في الصوت المعتمد على الذكاء الاصطناعي. فكثير من التطبيقات تحتاج إلى عائلة نموذج واحدة تخدم أسواقاً متعددة من دون أن تضطر الفرق إلى تجميع مزيج من المزودين الإقليميين. كما أن دعم حوارات متعددة المتحدثين مفيد لأنه يفتح الباب أمام صيغ أغنى مثل الدروس الحوارية، والسرد الدرامي، وتبادلات المضيفين الاصطناعية في الوسائط القصيرة.
ويشير هذا المزيج إلى أن Google تستهدف أدوات المطورين والنشر المؤسسي معاً، لا مجرد استراتيجية عرض استهلاكية ضيقة. وإتاحة المنتج عبر Gemini API وVertex AI لمستخدمي المؤسسات وGoogle Vids لمستخدمي Workspace وAI Studio للتجريب المجاني تعزز هذه الفكرة. فالمنتج يُوضَع في الوقت نفسه ضمن قنوات النمذجة الأولية وقنوات الإنتاج.


