OpenAI pousse plus loin les interfaces vocales en temps réel

OpenAI a ajouté un ensemble de nouvelles fonctionnalités d’intelligence vocale à son API, élargissant ce que les développeurs peuvent faire avec l’audio en direct dans les produits logiciels. L’entreprise affirme que ces nouveaux outils sont conçus pour aider les applications à parler aux utilisateurs, transcrire la parole et traduire les conversations au fur et à mesure qu’elles se déroulent.

La version comprend trois capacités principales : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Ensemble, elles s’inscrivent dans une volonté plus large d’aller au-delà de la simple entrée et sortie vocales pour aller vers des systèmes capables d’écouter, de raisonner, de traduire et de répondre dans le fil d’une conversation en direct.

Ce qui est nouveau

Le premier modèle, GPT-Realtime-2, est présenté comme un modèle vocal amélioré pour une interaction vocale réaliste. OpenAI indique qu’il se distingue du précédent GPT-Realtime-1.5 car il est construit avec un raisonnement de niveau GPT-5, destiné à traiter des demandes utilisateur plus complexes. Cela signale une volonté de rendre les systèmes vocaux plus performants dans les situations où une conversation n’est pas seulement une suite de requêtes brèves, mais un échange nécessitant davantage de contexte et de prise de décision.

Le deuxième lancement, GPT-Realtime-Translate, vise la traduction en direct. OpenAI affirme qu’il peut fournir une traduction en temps réel qui suit le rythme de l’orateur dans un contexte conversationnel. D’après le texte source fourni, il prend en charge plus de 70 langues en entrée et 13 langues en sortie.

Le troisième outil, GPT-Realtime-Whisper, se concentre sur la transcription vocale en texte en direct. OpenAI indique qu’il capture les échanges parlés au fur et à mesure qu’ils se produisent, offrant aux développeurs un moyen d’intégrer une transcription immédiate dans leurs applications.