OpenAI रीयल-टाइम वॉइस इंटरफेस की दिशा में और आगे बढ़ा

OpenAI ने अपनी API में वॉइस इंटेलिजेंस सुविधाओं का एक नया सेट जोड़ा है, जिससे डेवलपर्स सॉफ्टवेयर उत्पादों में लाइव ऑडियो के साथ और अधिक कर सकते हैं। कंपनी का कहना है कि ये नए टूल एप्लिकेशनों को उपयोगकर्ताओं से बात करने, भाषण को ट्रांसक्राइब करने और बातचीत होते-होते उसका अनुवाद करने में मदद करने के लिए बनाए गए हैं।

इस रिलीज़ में तीन मुख्य क्षमताएँ शामिल हैं: GPT-Realtime-2, GPT-Realtime-Translate और GPT-Realtime-Whisper। साथ मिलकर, ये साधारण वॉइस इनपुट और आउटपुट से आगे बढ़कर ऐसे सिस्टम की ओर बड़ा कदम हैं जो लाइव बातचीत के प्रवाह में सुन सकें, तर्क कर सकें, अनुवाद कर सकें और जवाब दे सकें।

क्या नया है

पहला मॉडल, GPT-Realtime-2, यथार्थवादी वोकल इंटरैक्शन के लिए एक उन्नत वॉइस मॉडल के रूप में प्रस्तुत किया गया है। OpenAI का कहना है कि यह पुराने GPT-Realtime-1.5 से अलग है क्योंकि इसे GPT-5-स्तरीय रीजनिंग के साथ बनाया गया है, ताकि यह अधिक जटिल उपयोगकर्ता अनुरोधों को संभाल सके। यह संकेत देता है कि कंपनी वॉइस सिस्टम को उन स्थितियों में अधिक सक्षम बनाना चाहती है, जहाँ बातचीत केवल छोटे-छोटे प्रॉम्प्ट्स की श्रृंखला नहीं होती, बल्कि अधिक संदर्भ और निर्णय-निर्माण की जरूरत होती है।

दूसरी लॉन्च, GPT-Realtime-Translate, लाइव अनुवाद के लिए है। OpenAI का कहना है कि यह वास्तविक समय में ऐसा अनुवाद दे सकता है जो बातचीत के माहौल में वक्ता की गति के साथ बना रहे। दिए गए स्रोत पाठ के अनुसार, यह 70 से अधिक इनपुट भाषाओं और 13 आउटपुट भाषाओं का समर्थन करता है।

तीसरा टूल, GPT-Realtime-Whisper, लाइव स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन पर केंद्रित है। OpenAI का कहना है कि यह बोलचाल को उसी समय कैप्चर करता है जब वह हो रही होती है, जिससे डेवलपर्स अपनी ऐप्स में तुरंत ट्रांसक्रिप्शन जोड़ सकते हैं।