OpenAI avança ainda mais nas interfaces de voz em tempo real

A OpenAI adicionou um conjunto de novos recursos de inteligência de voz à sua API, ampliando o que os desenvolvedores podem fazer com áudio ao vivo em produtos de software. A empresa diz que as novas ferramentas foram projetadas para ajudar aplicativos a conversar com usuários, transcrever falas e traduzir conversas à medida que elas acontecem.

O lançamento inclui três capacidades principais: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Juntas, elas representam um esforço mais amplo para ir além da simples entrada e saída de voz, em direção a sistemas capazes de ouvir, raciocinar, traduzir e responder no fluxo de uma conversa ao vivo.

O que há de novo

O primeiro modelo, GPT-Realtime-2, é apresentado como um modelo de voz aprimorado para interação vocal realista. A OpenAI diz que ele difere do GPT-Realtime-1.5 anterior porque foi construído com raciocínio de classe GPT-5, pensado para lidar com solicitações de usuários mais complexas. Isso indica uma tentativa de tornar os sistemas de voz mais capazes em situações em que uma conversa não é apenas uma sequência de prompts curtos, mas uma troca que exige mais contexto e tomada de decisão.

O segundo lançamento, GPT-Realtime-Translate, é voltado para tradução ao vivo. A OpenAI diz que ele pode fornecer tradução em tempo real acompanhando o ritmo do falante em um contexto conversacional. De acordo com o texto-fonte fornecido, ele suporta mais de 70 idiomas de entrada e 13 idiomas de saída.

A terceira ferramenta, GPT-Realtime-Whisper, foca em transcrição de fala para texto ao vivo. A OpenAI diz que ela captura interações faladas à medida que ocorrem, oferecendo aos desenvolvedores uma maneira de incorporar transcrição imediata em seus aplicativos.