OpenAI 进一步推进实时语音界面
OpenAI 在其 API 中新增了一组语音智能功能,扩展了开发者在软件产品中利用实时音频所能实现的能力。该公司表示,这些新工具旨在帮助应用程序与用户对话、转录语音,并在对话发生时同步翻译。
此次发布包含三项主要能力:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。三者合起来,体现了更广泛的努力,即不再局限于简单的语音输入和输出,而是迈向能够在实时对话流中倾听、推理、翻译并作出回应的系统。
有哪些新内容
第一个模型 GPT-Realtime-2 被定位为一款升级版语音模型,用于实现更真实的语音交互。OpenAI 表示,它与早前的 GPT-Realtime-1.5 不同,因为它采用了 GPT-5 级别的推理能力,旨在处理更复杂的用户请求。这表明公司希望让语音系统在那些对话不只是短促提示序列,而是需要更多上下文和决策的场景中更具能力。
第二项发布 GPT-Realtime-Translate 面向实时翻译。OpenAI 表示,它可以在对话场景中提供跟得上说话者节奏的实时翻译。根据所提供的源文本,它支持超过 70 种输入语言和 13 种输出语言。
第三个工具 GPT-Realtime-Whisper 专注于实时语音转文字转录。OpenAI 表示,它会在口语交互发生时捕捉内容,为开发者提供将即时转录集成到应用中的方式。
这对开发者为何重要
对 AI 开发者而言,实时音频一直是重大的技术和产品挑战,因为有用的语音系统需要做的不仅是识别词语。它们还必须管理延迟、保持对话连贯性,并以足够自然的方式回应,才能让用户愿意继续交流。通过把推理、翻译和转录打包进 API 产品,OpenAI 正试图让这一技术栈更容易获取。
该公司对这次发布的描述颇具意味。OpenAI 表示,这些模型将实时音频从简单的问答式交互,推进到可以在对话展开时完成工作的语音界面。这一区别很重要。只会回复的语音机器人是一回事;能够在同一次交互中倾听、理解、翻译、转录并可能采取行动的系统,则是更具雄心的平台组件。
客户服务是最明显的短期使用场景,OpenAI 也明确指出了这一类别。但该公司还表示,这些工具可能对教育、媒体、活动和创作者平台有帮助。这些例子表明,市场不仅面向语音助手,也面向多语言实时工作流以及需要持续转录或翻译层的对话式应用。





