OpenAI avanza más en las interfaces de voz en tiempo real
OpenAI ha agregado un conjunto de nuevas funciones de inteligencia de voz a su API, ampliando lo que los desarrolladores pueden hacer con audio en vivo en productos de software. La empresa afirma que las nuevas herramientas están diseñadas para ayudar a las aplicaciones a hablar con los usuarios, transcribir el habla y traducir conversaciones a medida que ocurren.
El lanzamiento incluye tres capacidades principales: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. En conjunto, forman parte de un esfuerzo más amplio por ir más allá de la simple entrada y salida de voz hacia sistemas que puedan escuchar, razonar, traducir y responder en el flujo de una conversación en vivo.
Qué hay de nuevo
El primer modelo, GPT-Realtime-2, se presenta como un modelo de voz mejorado para una interacción vocal realista. OpenAI dice que se diferencia del anterior GPT-Realtime-1.5 porque está construido con razonamiento de clase GPT-5, pensado para manejar solicitudes de usuario más complejas. Eso indica un impulso por hacer que los sistemas de voz sean más capaces en situaciones en las que una conversación no es solo una secuencia de indicaciones breves, sino un intercambio que requiere más contexto y toma de decisiones.
El segundo lanzamiento, GPT-Realtime-Translate, está orientado a la traducción en vivo. OpenAI dice que puede ofrecer traducción en tiempo real que mantenga el ritmo del hablante en un entorno conversacional. Según el texto fuente proporcionado, admite más de 70 idiomas de entrada y 13 idiomas de salida.
La tercera herramienta, GPT-Realtime-Whisper, se centra en la transcripción de voz a texto en vivo. OpenAI dice que captura las interacciones habladas conforme se producen, ofreciendo a los desarrolladores una forma de incorporar transcripción inmediata en sus aplicaciones.





