L’IA vocale va au-delà des réponses rapides

OpenAI a lancé trois nouveaux modèles audio dans son API, présentant cette sortie comme une étape vers des systèmes vocaux capables de faire davantage que répondre rapidement. Les nouveaux modèles sont GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Ensemble, ils sont conçus pour prendre en charge des échanges en direct dans lesquels le logiciel peut raisonner sur les demandes, traduire la parole au fur et à mesure et transcrire les interlocuteurs en temps réel.

L’argument de l’entreprise est que des interfaces vocales utiles exigent plus qu’une sortie au son naturel ou qu’une alternance de tours à faible latence. Dans des produits réels, un système vocal doit interpréter l’intention, garder le contexte en mémoire, se rétablir lorsqu’une personne change de direction, et parfois utiliser des outils alors que la conversation est encore en cours. Cela fait passer la voix d’une couche de présentation à une interface opérationnelle.

Trois modèles, trois missions distinctes

GPT-Realtime-2 est présenté comme le premier modèle vocal d’OpenAI doté d’un raisonnement de niveau GPT-5. L’accent n’est pas simplement mis sur la qualité sonore, mais sur la capacité à gérer des demandes plus difficiles et à faire avancer la conversation naturellement. Le modèle est conçu pour des scénarios voix-vers-action où les utilisateurs décrivent un besoin en langage courant et attendent du système qu’il raisonne sur les prochaines étapes.

GPT-Realtime-Translate vise l’interaction multilingue en direct. OpenAI indique que le modèle peut traduire la parole de plus de 70 langues d’entrée vers 13 langues de sortie tout en suivant le rythme de l’orateur. Cet objectif compte pour le service client, le voyage, les événements mondiaux et la communication en entreprise, où la valeur de la traduction dépend fortement de la vitesse et de la continuité conversationnelle.

GPT-Realtime-Whisper se concentre sur la conversion de la parole en texte en streaming, en transcrivant la parole en direct pendant que la personne parle. Une transcription en direct fiable est une couche fondamentale pour de nombreux produits vocaux, notamment les assistants, les systèmes de support, les outils de réunion et les applications d’accessibilité.