Google 推出 Gemini 3.1 Flash TTS 预览版，让 AI 语音更具表现力

Google 推动 AI 语音朝着更可控、更多语言的输出方向发展

Google 推出了 Gemini 3.1 Flash TTS，这是一款新的文本转语音模型。Google 表示，该模型提升了合成语音生成的自然度、表现力范围和可控性。此次发布首先以预览版形式面向 Gemini API 和 Google AI Studio 的开发者、面向企业用户的 Vertex AI，以及面向 Workspace 用户的 Google Vids 开放，表明 Google 认为语音并不只是一个独立演示功能，而是面向广泛产品和工作流的基础设施。

这一公告之所以重要，是因为生成式 AI 的竞争焦点已不再仅仅围绕文本或图像质量。语音已经成为助手、客户服务系统、创作者工具和生产力软件的关键交互层。在这一背景下，该模型的核心卖点不只是输出更好听，而是输出更实用：语音能够被更精确地引导，并在不同应用之间保持一致地复用。

控制能力成为卖点

据 Google 介绍，Gemini 3.1 Flash TTS 引入了细粒度音频标签，用户可通过自然语言风格指令来调节播报方式。这意味着开发者或创作者无需只依赖固定预设音色，也可以塑造语速、语气和声音风格。其实际效果是让文本转语音系统更接近可提示式媒体工具，输出可以针对特定使用场景进行调优，而不只是接受一种通用的语音渲染结果。

对于正在构建品牌助手、旁白流程、教育产品或企业内部工具的团队来说，这种转变可能非常重要。一个能够更好遵循“如何说话”指令的系统，更有可能适配那些对一致性要求很高的生产流程。Google 还表示，开发者可以在 AI Studio 中微调音色并导出设置以便重复使用，这表明其工作流是为迭代设计的，而非一次性生成。

换言之，这款模型被定位为软件中的一个可控组件，而不仅仅是娱乐功能。这使其在那些既需要音质精致、又需要可预测和可配置语音系统的市场中更具直接竞争力。

更广泛的语言支持扩大市场

Google 表示，Gemini 3.1 Flash TTS 支持 70 多种语言。这个规模很重要，因为全球部署已成为企业 AI 中最大的实际限制之一。一个在英语环境下表现良好、在其他语言中却表现不佳的语音工具，其商业覆盖面就会很窄。通过从一开始就强调广泛的语言覆盖，Google 释放出一个信号：它希望这款模型服务于跨国产品、区域媒体工作流以及不同市场中的内部业务应用。

对于开发者而言，广泛的语言支持可以减少为不同地区维护碎片化技术栈的需要。对于企业而言，这意味着在将 AI 功能扩展到多个地区的支持团队、客户互动或内部沟通时，需要做出的妥协更少。单一模型越能处理多种语言中的富有表现力的输出，就越容易围绕一个平台实现标准化。

这并不一定能完全解决不同语言、方言或本地使用习惯之间语音质量是否一致的问题。Google 的公告强调的是支持范围和可控性，但真正的考验将是这些能力在生产环境中是否能稳定成立。即便如此，这次发布仍反映出行业的一个更广泛趋势：合成语音正越来越被默认要求具备多语言能力。

水印表明错误信息问题并未消失

Google 表示，由 Gemini 3.1 Flash TTS 生成的音频将带有 SynthID 水印。这个细节很容易被忽视，但却是此次发布中最关键的部分之一。让 AI 语音更自然、更有表现力的那些进步，也让它更难与真人录音区分。随着语音克隆、自动旁白和合成代理的扩散，溯源工具正成为产品叙事中的核心部分。

通过突出水印功能，Google 承认更好的语音生成会增加滥用风险。公司并没有把这一功能描述为应对欺骗或深度伪造滥用的完整答案，而是将其视为模型部署时附带的基础安全措施。这种做法与生成式 AI 发布中的一种模式一致：能力提升会与可追溯性措施一起推出，以支持信任和政策合规。

这种水印在实践中是否有用，将取决于检测工具被采用的广度，以及下游平台是否会使用这些工具。但 SynthID 的加入再次强调，如今语音模型是在一个真实性控制已成为预期配置的环境中发布的。

为什么这次发布很重要

Gemini 3.1 Flash TTS 的意义，与其说在于某个单一基准，不如说在于它被如何分发和描述。Google 同时将该模型接入开发者工具、企业基础设施和终端用户应用。这表明其策略是把语音生成变成 Gemini 生态的原生组成部分，而不是一个专门的附加功能。

如果该模型兑现更自然语音和更强提示控制的承诺，它可能会让 AI 生成音频更适合日常业务和产品用途。面向客户的助手会显得不那么机械。内部培训和沟通工具也可能更容易规模化制作。创作者则可能获得一种更快的方式，以多种风格和语言生成旁白。

与此同时，这次发布也表明，生成式 AI 竞赛正在超越登上头条的模型规模和推理性能。公司现在需要在媒体生成的每一层都拿出有竞争力的答案，包括语音。在这个意义上，Gemini 3.1 Flash TTS 不只是一次功能发布。它也是让 Google 的 AI 平台更完整、更具商业实用性、并更深地嵌入人们实际听到的界面中的更大努力的一部分。

要点摘要

Google 正在开发者、企业和 Workspace 产品中预览推出 Gemini 3.1 Flash TTS。
该模型的核心卖点是提升语音质量，并通过自然语言音频标签实现更精细控制。
对 70 多种语言的支持，使此次发布适合全球产品和企业部署。
所有生成的音频都将使用 SynthID 加水印，凸显真实性和错误信息方面的持续担忧。

本文基于 Google AI Blog 的报道。阅读原文。

Originally published on blog.google

Google 扩展 AI 语音工具，推出 Gemini 3.1 Flash TTS 预览版

Google 推动 AI 语音朝着更可控、更多语言的输出方向发展

控制能力成为卖点

更广泛的语言支持扩大市场

水印表明错误信息问题并未消失

为什么这次发布很重要

要点摘要

Comments (0)

Related Articles

MISUMI以10亿美元AI制造押注启动美洲扩张

Keep Reading