OpenAI treibt Echtzeit-Sprachschnittstellen weiter voran
OpenAI hat seiner API eine Reihe neuer Sprachintelligenz-Funktionen hinzugefügt und erweitert damit, was Entwickler mit Live-Audio in Softwareprodukten tun können. Das Unternehmen sagt, die neuen Tools seien darauf ausgelegt, Anwendungen dabei zu helfen, mit Nutzern zu sprechen, Sprache zu transkribieren und Gespräche in Echtzeit zu übersetzen.
Die Veröffentlichung umfasst drei Hauptfunktionen: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Zusammen sind sie Teil eines umfassenderen Vorstoßes, sich über einfache Sprach-Ein- und -Ausgabe hinaus zu Systemen zu bewegen, die in einem laufenden Gespräch zuhören, schlussfolgern, übersetzen und antworten können.
Was neu ist
Das erste Modell, GPT-Realtime-2, wird als verbessertes Sprachmodell für realistische Sprachinteraktion vorgestellt. OpenAI sagt, es unterscheide sich vom früheren GPT-Realtime-1.5, weil es mit GPT-5-Klasse an Reasoning entwickelt wurde, um komplexere Nutzeranfragen zu bewältigen. Das signalisiert den Versuch, Sprachsysteme in Situationen leistungsfähiger zu machen, in denen ein Gespräch nicht nur aus kurzen Prompts besteht, sondern aus einem Austausch, der mehr Kontext und Entscheidungsfindung erfordert.
Die zweite Veröffentlichung, GPT-Realtime-Translate, ist auf Live-Übersetzung ausgerichtet. OpenAI sagt, es könne eine Echtzeitübersetzung liefern, die in einem Gespräch mit dem Sprecher Schritt hält. Laut dem bereitgestellten Quelltext unterstützt es mehr als 70 Eingabesprachen und 13 Ausgabesprachen.
Das dritte Tool, GPT-Realtime-Whisper, konzentriert sich auf Live-Sprach-zu-Text-Transkription. OpenAI sagt, es erfasse gesprochene Interaktionen, sobald sie stattfinden, und biete Entwicklern eine Möglichkeit, sofortige Transkription in ihre Anwendungen einzubauen.



