La IA de voz va más allá de las respuestas rápidas
OpenAI ha lanzado tres nuevos modelos de audio en su API, presentando el lanzamiento como un paso hacia sistemas de voz que pueden hacer más que responder con rapidez. Los nuevos modelos son GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. En conjunto, están diseñados para respaldar flujos de conversación en vivo en los que el software puede razonar sobre las solicitudes, traducir el habla mientras sucede y transcribir a los hablantes en tiempo real.
El argumento de la empresa es que las interfaces de voz útiles requieren más que una salida de sonido natural o una alternancia de turnos con baja latencia. En productos del mundo real, un sistema de voz tiene que interpretar la intención, mantener el contexto, recuperarse cuando una persona cambia de rumbo y, en ocasiones, usar herramientas mientras la conversación aún se está desarrollando. Eso desplaza la voz de una capa de presentación a una interfaz operativa.
Tres modelos, tres tareas distintas
GPT-Realtime-2 se describe como el primer modelo de voz de OpenAI con razonamiento de clase GPT-5. El énfasis no está simplemente en la calidad del sonido, sino en manejar solicitudes más difíciles y llevar la conversación hacia adelante de forma natural. El modelo se plantea para escenarios de voz a acción en los que los usuarios describen una necesidad en lenguaje cotidiano y esperan que el sistema razone los pasos siguientes.
GPT-Realtime-Translate está orientado a la interacción multilingüe en vivo. OpenAI afirma que el modelo puede traducir voz de más de 70 idiomas de entrada a 13 idiomas de salida, manteniendo el ritmo del hablante. Ese objetivo es importante para atención al cliente, viajes, eventos globales y comunicación en el trabajo, donde el valor de la traducción depende en gran medida de la velocidad y la continuidad conversacional.
GPT-Realtime-Whisper se centra en la conversión de voz a texto en streaming, transcribiendo el habla en vivo a medida que el hablante habla. La transcripción en vivo confiable es una capa fundamental para muchos productos de voz, incluidos asistentes, sistemas de soporte, herramientas de reuniones y aplicaciones de accesibilidad.


