OpenAI 推出面向推理、翻译和转录的全新实时语音模型

语音 AI 正在超越快速回复

OpenAI 已在其 API 中推出三款新的音频模型，并将此次发布定位为迈向更强大语音系统的一步。这些系统不仅能快速响应，还能完成更多任务。新模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。三者结合起来，旨在支持实时对话流程，让软件能够对请求进行推理、在语言发生的同时翻译语音，并实时转录说话内容。

该公司的观点是，有用的语音界面需要的不只是自然的输出效果或低延迟的轮次切换。在真实世界的产品中，语音系统必须理解意图、跟踪上下文、在用户改变方向时重新适应，有时还需要在对话仍在进行时调用工具。这使语音从展示层转变为操作界面。

三款模型，三项不同任务

GPT-Realtime-2 被描述为 OpenAI 首个具备 GPT-5 级推理能力的语音模型。重点不只是声音质量，而是更好地处理复杂请求，并自然地推进对话。该模型面向语音到行动的场景：用户用日常语言描述需求，并希望系统推理出下一步。

GPT-Realtime-Translate 面向实时多语言互动。OpenAI 表示，该模型能够将来自 70 多种输入语言的语音翻译为 13 种输出语言，同时保持与说话者节奏一致。这个目标对于客户服务、旅行、全球活动和职场沟通尤为重要，因为翻译的价值在很大程度上取决于速度和对话连贯性。

GPT-Realtime-Whisper 专注于流式语音转文本，在说话者讲话的同时实时转录语音。可靠的实时转录是许多语音产品的基础层，包括助手、支持系统、会议工具和无障碍应用。

开发者为何关注这一类别

OpenAI 将此次发布视为人们使用软件方式发生更广泛转变的一部分。当打字不方便或根本无法打字时，语音就很有用：比如开车时、穿过机场时、用自己偏好的语言交流时，或者在免提状态下处理任务时。但要在商业上真正有意义，这些系统不能只会聊天，还必须把语言理解连接到真实的产品行为。

这就是公司围绕“voice-to-action”所强调意义的所在。一个有能力的语音代理应当能够在一个连续循环中完成聆听、推理、翻译、转录和执行动作。开发者能够直接把这个工作流中的更多环节构建进单一实时技术栈时，整体体验就会更不容易出错。

更大的转变：能听也能行动的软件

这则公告最引人注目的地方，是语音正从一种新奇层退化为更实用的界面层。OpenAI 明确把音频定位为人与产品之间的界面。这意味着未来与软件对话不只是另一种提问方式，而可能成为完成工作的方式。如果这些模型如其所述般表现，开发者就能构建出在任务、翻译和转录并行发生时仍保持响应能力的系统。

这并不意味着键盘和屏幕界面会消失。它意味着更多类别的软件可能获得第二个入口：一个围绕持续语音、上下文和行动构建的入口。最新的模型发布正是试图让这种界面足够实用，能够真正投入使用。

本文基于 OpenAI 的报道。阅读原文。

OpenAI 通过面向推理、翻译和实时转录的新 API 模型进一步推进实时语音能力

语音 AI 正在超越快速回复

三款模型，三项不同任务

开发者为何关注这一类别

Keep Reading

实时 AI 竞争加剧

Thinking Machines Lab 发布面向对话的实时多模态模型

更大的转变：能听也能行动的软件

Comments (0)

Parameter Golf 展示了 AI 编码代理如何正在改变机器学习研究本身