OpenAI 推出实时语音、翻译和转录 API 功能

OpenAI 进一步推进实时语音界面

OpenAI 在其 API 中新增了一组语音智能功能，扩展了开发者在软件产品中利用实时音频所能实现的能力。该公司表示，这些新工具旨在帮助应用程序与用户对话、转录语音，并在对话发生时同步翻译。

此次发布包含三项主要能力：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。三者合起来，体现了更广泛的努力，即不再局限于简单的语音输入和输出，而是迈向能够在实时对话流中倾听、推理、翻译并作出回应的系统。

有哪些新内容

第一个模型 GPT-Realtime-2 被定位为一款升级版语音模型，用于实现更真实的语音交互。OpenAI 表示，它与早前的 GPT-Realtime-1.5 不同，因为它采用了 GPT-5 级别的推理能力，旨在处理更复杂的用户请求。这表明公司希望让语音系统在那些对话不只是短促提示序列，而是需要更多上下文和决策的场景中更具能力。

第二项发布 GPT-Realtime-Translate 面向实时翻译。OpenAI 表示，它可以在对话场景中提供跟得上说话者节奏的实时翻译。根据所提供的源文本，它支持超过 70 种输入语言和 13 种输出语言。

第三个工具 GPT-Realtime-Whisper 专注于实时语音转文字转录。OpenAI 表示，它会在口语交互发生时捕捉内容，为开发者提供将即时转录集成到应用中的方式。

这对开发者为何重要

对 AI 开发者而言，实时音频一直是重大的技术和产品挑战，因为有用的语音系统需要做的不仅是识别词语。它们还必须管理延迟、保持对话连贯性，并以足够自然的方式回应，才能让用户愿意继续交流。通过把推理、翻译和转录打包进 API 产品，OpenAI 正试图让这一技术栈更容易获取。

该公司对这次发布的描述颇具意味。OpenAI 表示，这些模型将实时音频从简单的问答式交互，推进到可以在对话展开时完成工作的语音界面。这一区别很重要。只会回复的语音机器人是一回事；能够在同一次交互中倾听、理解、翻译、转录并可能采取行动的系统，则是更具雄心的平台组件。

客户服务是最明显的短期使用场景，OpenAI 也明确指出了这一类别。但该公司还表示，这些工具可能对教育、媒体、活动和创作者平台有帮助。这些例子表明，市场不仅面向语音助手，也面向多语言实时工作流以及需要持续转录或翻译层的对话式应用。

News

一篇关于 SpaceX IPO 文件的报道称，公司计划结合超级投票权股票、强制仲裁和治理限制，这将大幅收紧股东的救济途径。

DT Editorial AI·May 8, 2026·via arstechnica.com

News

在此前放弃拜登时期人工智能安全政策之后，特朗普政府已与 Google DeepMind、Microsoft 和 xAI 签署新的自愿测试协议，并可能进一步推进发布前测试强制令。

DT Editorial AI·May 8, 2026·via arstechnica.com

News

一家联邦上诉法院推翻了FCC的宽带反歧视规则，在无法证明存在故意偏见的情况下，缩小了该机构监管不平等互联网接入的能力。

DT Editorial AI·May 8, 2026·via arstechnica.com

AI 界面的更大转向

这次发布也反映出行业的一个更大趋势：AI 正从文本框走向环境式和口语式交互。翻译、转录和语音生成曾经是彼此独立的产品类别，如今模型提供商越来越多地试图将它们整合为统一的对话界面。

这一点之所以重要，是因为 AI 中真正胜出的产品，可能不是那些仅仅生成最佳答案的产品，而是那些最自然地融入人类工作流的产品。实时音频正是检验这一理念最清晰的场景之一。如果用户能够自然地说话、听到回应、获得转录，并在一个系统中跨越语言障碍，那么界面本身就会变得更普遍有用。

OpenAI 最新的 API 新增功能本身并不能决定这一未来是否会很快到来。开发者仍然需要集成这些工具、管理可靠性，并决定语音在何处真正能提升产品。但方向已经很明确。该公司押注于，实时、多模态、面向行动的对话，将成为应用 AI 的下一个重要层级之一。

本文基于 TechCrunch 的报道。阅读原文。

OpenAI 为其 API 增加实时语音、翻译和转录工具

OpenAI 进一步推进实时语音界面

有哪些新内容

这对开发者为何重要

Related Articles

Keep Reading

产品与政策之间的张力

新阿耳忒弥斯 II 图像序列为 NASA 的“Hello, World”视图增添了闪电、极光和一桩卫星之谜

AI 界面的更大转向

Comments (0)

为什么专科门诊总不回电话，以及为什么 AI 创业公司认为问题出在行政环节

据报 SpaceX IPO 条款将赋予马斯克严密控制权并限制投资者挑战

特朗普政府改弦更张，拥抱前沿人工智能安全测试

美国法院撤销FCC宽带反歧视规则