रिअल-टाइम व्हॉइस इंटरफेसेसकडे OpenAI आणखी पुढे गेले आहे

OpenAI ने आपल्या API मध्ये व्हॉइस इंटेलिजन्स फिचर्सचा एक नवा संच जोडला आहे, ज्यामुळे सॉफ्टवेअर उत्पादनांमध्ये लाईव्ह ऑडिओसोबत डेव्हलपर्स अधिक काही करू शकतील. हे नवीन टूल्स अॅप्लिकेशन्सना वापरकर्त्यांशी बोलणे, भाषण ट्रान्सक्राइब करणे आणि संभाषण सुरू असतानाच त्याचे भाषांतर करणे यासाठी मदत करण्यासाठी तयार केल्याचे कंपनी सांगते.

या रिलीजमध्ये तीन मुख्य क्षमता आहेत: GPT-Realtime-2, GPT-Realtime-Translate आणि GPT-Realtime-Whisper. एकत्रितपणे, त्या साध्या व्हॉइस इनपुट आणि आउटपुटच्या पलीकडे जाऊन, लाईव्ह संभाषणाच्या प्रवाहात ऐकू, विचार करू, भाषांतर करू आणि प्रतिसाद देऊ शकणाऱ्या सिस्टीमकडे नेणाऱ्या व्यापक प्रयत्नाचा भाग आहेत.

काय नवीन आहे

पहिले मॉडेल, GPT-Realtime-2, वास्तवदर्शी व्होकल इंटरॅक्शनसाठी अपग्रेडेड व्हॉइस मॉडेल म्हणून मांडले आहे. OpenAI चे म्हणणे आहे की ते जुन्या GPT-Realtime-1.5 पेक्षा वेगळे आहे कारण ते GPT-5-class reasoning वापरून तयार केले गेले आहे, जे अधिक गुंतागुंतीच्या वापरकर्ता विनंत्या हाताळण्यासाठी आहे. यावरून हे सूचित होते की व्हॉइस सिस्टीम्सना अशा परिस्थितीत अधिक सक्षम करायचे आहे, जिथे संभाषण हे फक्त लहान promptsची मालिका नसून अधिक संदर्भ आणि निर्णयक्षमतेची गरज असलेला संवाद असतो.

दुसरे लाँच, GPT-Realtime-Translate, लाईव्ह भाषांतरासाठी उद्दिष्टित आहे. संभाषणात्मक वातावरणात वक्त्याच्या गतीबरोबर टिकून राहील असे रिअल-टाइम भाषांतर ते देऊ शकते, असे OpenAI चे म्हणणे आहे. दिलेल्या स्रोत मजकुरानुसार, ते 70 हून अधिक input languages आणि 13 output languages ना समर्थन देते.

तिसरे टूल, GPT-Realtime-Whisper, लाईव्ह speech-to-text transcription वर लक्ष केंद्रित करते. बोलल्या जाणाऱ्या संभाषणांचे त्याच क्षणी कैप्चर करून, आपल्या अॅप्लिकेशन्समध्ये त्वरित ट्रान्सक्रिप्शन जोडण्यासाठी डेव्हलपर्सना ते मदत करते, असे OpenAI म्हणते.