更广泛地推进可编程语音
谷歌正在扩展其生成式音频产品,推出 Gemini 3.1 Flash text-to-speech,这是一款公司称其为迄今最自然、最具表现力的语音系统的新模型。据 The Decoder 报道,此次更新不仅关注原始语音质量,也强调可控性,为开发者提供了更直接的方式来塑造生成语音的听感。
最引人注目的功能是一套音频标签系统:用户可通过文本指令引导风格、语速、语调和口音。这一点很重要,因为文本转语音领域长期存在的问题,不只是让音频听起来逼真,而是让它能够稳定地表达出与产品需求相匹配的情绪和风格。语音助手、有旁白的解释内容、客服流程、教育内容以及对话密集型应用,都会从不同的节奏和声音风格中受益。
通过把这些控制能力作为简单的文本指令开放出来,谷歌似乎在降低提示设计与语音输出之间的摩擦。平台不再把语气和表达方式视为不透明的模型行为,而是把它们作为开发者可以有意影响的参数来呈现。
语言覆盖范围与多说话人支持
据报道,Gemini 3.1 Flash TTS 支持 70 多种语言,并可生成多说话人对话。这两项能力使该模型不仅适用于英语演示,也适用于全球化产品和更复杂的媒体工作流。
语言覆盖正在成为 AI 语音领域的重要竞争差异点。许多应用需要一个模型家族就能服务多个市场,而不是让团队拼凑一堆区域性供应商。多说话人对话支持同样有用,因为它为对话式课程、戏剧化旁白以及短内容媒体中的合成主持人交流等更丰富的形式打开了大门。
这种组合表明,谷歌的目标既是开发工具,也是企业级部署,而不是狭窄的消费者演示策略。该产品同时通过 Gemini API、面向企业用户的 Vertex AI、面向 Workspace 用户的 Google Vids,以及用于免费实验的 AI Studio 提供,这一点也强化了这种判断。它被同时定位在原型开发和生产渠道上。
免费与付费层级之间的数据使用和定价分化
该模型的经济性也很明确。The Decoder 报道称,谷歌提供免费层级,但前提是谷歌会使用免费层级数据改进其产品。付费层级的定价为:文本输入每百万 tokens 1.00 美元,音频输出每百万 tokens 20.00 美元;批处理模式则将成本减半,分别降至 0.50 美元和 10.00 美元。在付费层级上,谷歌不会将数据用于产品改进。
这一分层很重要,因为它反映了更广泛的 AI 基础设施模式:为实验提供低门槛测试,以及为商业用途提供更清晰的数据处理边界。对许多开发者,尤其是面向客户或受监管产品的团队来说,数据使用条款可能和基准性能一样重要。
定价模式也表明,谷歌在能力之外,还在竞争价值。文本转语音如今已是专门语音创业公司与大型云厂商云集的拥挤市场,因此成本与性能的平衡可能决定采用与否。
它如何接受基准测试
报道称,Artificial Analysis 给 Gemini 3.1 Flash TTS 的 Elo 评分为 1,211。它还表示,该模型的整体质量优于 ElevenLabs v3,仅次于 Inworld 1.5 Max。无论这些排名未来是否保持不变,加入基准语境都很重要,因为语音市场已经从新奇阶段走向成熟。买家越来越期待在质量、延迟、可控性和价格方面看到可衡量的对比。
谷歌对性价比的强调,显然是为了回应这一市场需求。一个排名接近顶端且定价激进的模型,更容易被用于大规模部署,尤其是在音频输出量很高的场景中。
水印也是发布的一部分
据报道,该模型生成的每个音频文件都会带有谷歌的 SynthID 水印。这在当下很重要,因为合成媒体治理正从抽象的伦理讨论,变成实际的产品问题。
水印并不能消除滥用风险,但它表明溯源已被纳入发布架构。对于企业客户和平台运营者来说,这可能是一个重要信号,说明谷歌预期语音生成会扩展到真实性和披露都很重要的环境中。
更具竞争力的 AI 语音栈
这次发布的更大意义在于,它通过让语音输出更可编程、更多语言化,并更易于接入整个产品生态,强化了谷歌在多模态 AI 领域的地位。仅靠文本生成,已不足以满足许多应用需求。团队越来越希望文本、图像、视频和音频能力能够被协同编排。
Gemini 3.1 Flash TTS 看起来就是为这种环境设计的。该模型的表现力控制、广泛语言支持、多说话人能力、预览可用性以及定价结构,都指向一个面向实际部署的产品故事,而不是仅供研究展示的公告。
它是否会成为开发者的默认选择,取决于真实世界测试,但这次发布至少说明了一点:生成式 AI 语音的竞争,已经不再只是“像不像人”。它比拼的是精确性、集成度、经济性,以及将信任功能一并打包交付。
本文基于 The Decoder 的报道。阅读原文。
Originally published on the-decoder.com


