OpenAI lanza funciones API de voz, traducción y transcripción en tiempo real

OpenAI avanza más en las interfaces de voz en tiempo real

OpenAI ha agregado un conjunto de nuevas funciones de inteligencia de voz a su API, ampliando lo que los desarrolladores pueden hacer con audio en vivo en productos de software. La empresa afirma que las nuevas herramientas están diseñadas para ayudar a las aplicaciones a hablar con los usuarios, transcribir el habla y traducir conversaciones a medida que ocurren.

El lanzamiento incluye tres capacidades principales: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. En conjunto, forman parte de un esfuerzo más amplio por ir más allá de la simple entrada y salida de voz hacia sistemas que puedan escuchar, razonar, traducir y responder en el flujo de una conversación en vivo.

Qué hay de nuevo

El primer modelo, GPT-Realtime-2, se presenta como un modelo de voz mejorado para una interacción vocal realista. OpenAI dice que se diferencia del anterior GPT-Realtime-1.5 porque está construido con razonamiento de clase GPT-5, pensado para manejar solicitudes de usuario más complejas. Eso indica un impulso por hacer que los sistemas de voz sean más capaces en situaciones en las que una conversación no es solo una secuencia de indicaciones breves, sino un intercambio que requiere más contexto y toma de decisiones.

El segundo lanzamiento, GPT-Realtime-Translate, está orientado a la traducción en vivo. OpenAI dice que puede ofrecer traducción en tiempo real que mantenga el ritmo del hablante en un entorno conversacional. Según el texto fuente proporcionado, admite más de 70 idiomas de entrada y 13 idiomas de salida.

La tercera herramienta, GPT-Realtime-Whisper, se centra en la transcripción de voz a texto en vivo. OpenAI dice que captura las interacciones habladas conforme se producen, ofreciendo a los desarrolladores una forma de incorporar transcripción inmediata en sus aplicaciones.

News

Google DeepMind ha tomado una participación minoritaria en la empresa detrás de EVE Online y planea usar una versión offline del juego para estudiar sistemas de IA que deben planificar, recordar y aprender en entornos complejos y persistentes.

DT Editorial AI·May 8, 2026·via arstechnica.com

News

Un informe sobre la presentación bursátil de SpaceX señala que la compañía planea combinar acciones con supervoto, arbitraje obligatorio y límites de gobernanza que restringirían de forma marcada los recursos de los accionistas.

DT Editorial AI·May 8, 2026·via arstechnica.com

News

Tras desechar antes la política de seguridad de IA de la era Biden, la administración Trump ha firmado nuevos acuerdos voluntarios de prueba con Google DeepMind, Microsoft y xAI y podría ir más lejos con un mandato de pruebas antes del lanzamiento.

DT Editorial AI·May 8, 2026·via arstechnica.com

Por qué esto importa para los desarrolladores

El audio en tiempo real ha sido un gran desafío técnico y de producto para los desarrolladores de IA, porque los sistemas de voz útiles deben hacer más que reconocer palabras. Tienen que gestionar la latencia, mantener la coherencia conversacional y responder de una forma suficientemente natural como para que los usuarios sigan hablando. Al integrar razonamiento, traducción y transcripción en productos de API, OpenAI intenta hacer más accesible esa pila tecnológica.

La propia descripción de la empresa sobre el lanzamiento es reveladora. OpenAI dijo que los modelos llevan el audio en tiempo real de un simple esquema de pregunta y respuesta hacia interfaces de voz que pueden hacer trabajo mientras se desarrolla la conversación. Esa es una distinción importante. Un bot de voz que simplemente responde es una cosa. Un sistema que puede escuchar, interpretar, traducir, transcribir y potencialmente actuar dentro de la misma interacción es un componente de plataforma mucho más ambicioso.

El servicio al cliente es el caso de uso inmediato más evidente, y OpenAI apunta explícitamente a esa categoría. Pero la empresa también dice que las herramientas podrían ser útiles en educación, medios, eventos y plataformas para creadores. Esos ejemplos sugieren un mercado no solo para asistentes de voz, sino para flujos de trabajo en vivo multilingües y aplicaciones conversacionales que necesiten una capa continua de transcripción o traducción.

OpenAI añade herramientas de voz, traducción y transcripción en tiempo real a su API

OpenAI avanza más en las interfaces de voz en tiempo real

Qué hay de nuevo

Related Articles

Keep Reading

Lime presenta su IPO con crecimiento por un lado y presión de deuda por el otro

Por qué esto importa para los desarrolladores

La tensión entre producto y política

Por qué las consultas de especialistas no devuelven la llamada y por qué las startups de IA creen que la solución es administrativa

Un cambio más amplio en las interfaces de IA

Comments (0)

DeepMind recurre a EVE Online como banco de pruebas para la IA de largo alcance

Los términos reportados de la salida a bolsa de SpaceX darían a Musk un control estricto y limitarían los desafíos de los inversores

La administración Trump da marcha atrás y adopta pruebas de seguridad para la IA de frontera