Sprach-KI geht über schnelle Antworten hinaus

OpenAI hat drei neue Audiomodelle in seiner API veröffentlicht und die Einführung als Schritt hin zu Sprachsystemen beschrieben, die mehr können als nur schnell zu antworten. Die neuen Modelle sind GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Zusammen sind sie darauf ausgelegt, Live-Gesprächsabläufe zu unterstützen, in denen Software Anfragen schlussfolgern, Sprache in Echtzeit übersetzen und Sprecher live transkribieren kann.

Das Argument des Unternehmens ist, dass nützliche Sprachschnittstellen mehr brauchen als natürlich klingende Ausgabe oder niedrige Latenz beim Wechsel zwischen Gesprächsbeiträgen. In realen Produkten muss ein Sprachsystem Absichten interpretieren, den Kontext behalten, sich erholen, wenn eine Person die Richtung ändert, und manchmal Werkzeuge nutzen, während das Gespräch noch läuft. Dadurch verschiebt sich Sprache von einer Präsentationsschicht zu einer operativen Schnittstelle.

Drei Modelle, drei unterschiedliche Aufgaben

GPT-Realtime-2 wird als OpenAIs erstes Sprachmodell mit GPT-5-Klasse beim Schlussfolgern beschrieben. Der Schwerpunkt liegt dabei nicht nur auf der Klangqualität, sondern darauf, schwierigere Anfragen zu bewältigen und das Gespräch natürlich fortzuführen. Das Modell ist für Voice-to-Action-Szenarien positioniert, in denen Nutzer ein Anliegen in Alltagssprache beschreiben und erwarten, dass das System die nächsten Schritte ableitet.

GPT-Realtime-Translate ist auf live mehrsprachige Interaktion ausgerichtet. OpenAI sagt, das Modell könne Sprache aus mehr als 70 Eingabesprachen in 13 Ausgabesprachen übersetzen und dabei mit dem Sprecher Schritt halten. Das ist wichtig für Kundenservice, Reisen, globale Veranstaltungen und die Kommunikation am Arbeitsplatz, wo der Nutzen von Übersetzung stark von Geschwindigkeit und Gesprächskontinuität abhängt.

GPT-Realtime-Whisper konzentriert sich auf Streaming-Spracherkennung und transkribiert Sprache live, während der Sprecher redet. Zuverlässige Live-Transkription ist eine grundlegende Schicht für viele Sprachprodukte, darunter Assistenten, Supportsysteme, Meeting-Tools und Anwendungen für Barrierefreiheit.