व्हॉइस एआयवर वेगळी बाजी

Thinking Machines Lab, ही माजी OpenAI मुख्य तंत्रज्ञान अधिकारी मिरा मुराटी यांनी स्थापन केलेली स्टार्टअप कंपनी, हिने आपल्या पहिल्या मॉडेलचा एक संशोधन पूर्वावलोकन जाहीर केला आहे आणि आजच्या मुख्य प्रवाहातील व्हॉइस असिस्टंट्स ज्या पद्धतीने काम करतात त्याला थेट आव्हान म्हणून ते मांडले आहे. कंपनीच्या वर्णनानुसार, ही प्रणाली ऑडिओ, व्हिडिओ, आणि मजकूर यांना समांतरपणे 200-मिलिसेकंदांच्या तुकड्यांत प्रक्रिया करते, ज्याचा उद्देश संभाषणाला प्रश्न-उत्तरांच्या मालिकेसारखे न वाटता अधिक प्रवाही देवाणघेवाणीप्रमाणे वाटावे असा आहे.

हा डिझाइन निर्णय महत्त्वाचा आहे, कारण बहुतेक रिअल-टाइम एआय उत्पादने अजूनही टप्प्याटप्प्याच्या पाइपलाइनवर अवलंबून आहेत. उमेदवारासोबत दिलेल्या वर्णनानुसार, सध्याच्या प्रणाली सतत ऑडिओ घेत राहतात, पण मूळ मॉडेलला संपूर्ण थेट संवाद प्रवाहाचा थेट अनुभव मिळत नाही. त्याऐवजी, बाह्य घटक वक्ता कधी थांबला हे ठरवतात, त्या वक्तव्याचे पॅकेजिंग करतात, आणि मगच ते पूर्ण प्रतिसादासाठी मॉडेलकडे देतात. मॉडेल बोलत असताना, त्याची जाणीव प्रत्यक्षात थांबू शकते, जोपर्यंत त्यात अडथळा आणला जात नाही.

Thinking Machines Lab असे म्हणते की या रचनेत अंगभूत मर्यादा आहे. जर एखाद्या प्रणालीला टर्न-बाउंडरीची वाट पाहावी लागत असेल आणि कधी बोलायचे हे ठरवण्यासाठी खालच्या स्तरावरील सहाय्यक साधनांवर अवलंबून राहावे लागत असेल, तर नैसर्गिक संभाषणात लोक अपेक्षित करतात त्या वर्तनांशी ती झगडेल. कंपनीच्या मते, यामध्ये विचारणा झाल्यावर पुढाकार घेऊन मध्येच थांबवणे, योग्य ठिकाणी एकाच वेळी बोलणे, आणि दृश्य संदर्भाला थेट प्रतिसाद देणे यांचा समावेश होतो.

जुना पॅटर्न अपुरा का पडतो, असे स्टार्टअपने मानले आहे

कंपनीची मांडणी केवळ आपण अधिक वेगवान मॉडेल बनवले आहे, इतकीच नाही. ती एआयमधील उत्पादन डिझाइनबाबत एक व्यापक दावा करत आहे. तिच्या मते, इंटरअॅक्टिव्हिटी ही सर्वसाधारण उद्देशाच्या मॉडेलभोवती गुंडाळलेली पातळ थर मानू नये. ती मॉडेलच्या मूळ वर्तनाचा भाग असली पाहिजे.

हा युक्तिवाद Thinking Machines Lab ला एआय बाजारात एक महत्त्वाच्या धोरणात्मक स्थानावर ठेवतो. अनेक कंपन्यांनी मोठ्या मॉडेल्सना तर्कशक्ती, कोडिंग, आणि शोधात अधिक सक्षम बनवण्यावर लक्ष केंद्रित केले आहे, आणि मग त्यांना भाषणासाठी जुळवण्यासाठी ऑर्केस्ट्रेशन लेअर्स जोडले आहेत. Thinking Machines Lab म्हणते की या पद्धतीमुळे प्रणाली स्वच्छ वाटल्या तरी त्या ओळखण्याजोग्या यांत्रिकच राहतात.

उमेदवार मजकुरात म्हटले आहे की ही स्टार्टअप आपली पद्धत OpenAI च्या GPT-Realtime-2 आणि Google च्या Gemini Live सारख्या उत्पादनांशी तुलना करते. तिचा दावा असा आहे की बाह्य हार्नेसऐवजी थेट लाइव्ह ऑडिओ आणि व्हिडिओ स्ट्रीम प्रक्रिया करणारे मॉडेल वापरल्यास, प्रणाली संवादाची गुणवत्ता आणि विलंब दोन्ही सुधारू शकते. कंपनी असेही म्हणते की तिची पद्धत एक वेगवान इंटरअॅक्शन मॉडेल आणि बॅकग्राउंड रिझनिंग मॉडेल यांची सांगड घालते, ज्यातून तात्काळ संभाषणात्मक प्रतिसादक्षमता आणि खोल गणना यांना वेगळे करणारी एक वास्तुकला सूचित होते.

मॉडेल कशासाठी सक्षम करायचे आहे

स्रोतामधील व्यावहारिक उदाहरणे लक्षवेधी आहेत. अधिक नैसर्गिक इंटरअॅक्शन मॉडेल अशा देवाणघेवाणांना पाठबळ देऊ शकते, जिथे वापरकर्ता सहाय्यकाला काहीतरी चूक वाटल्यास मध्येच थांबवायला सांगतो, किंवा वापरकर्ता स्क्रीनवर किंवा कॅमेऱ्याच्या दृश्यात सक्रियपणे काही करत असताना प्रतिक्रिया देतो. ते बोलण्यात ओव्हरलॅपलाही पाठिंबा देऊ शकते, जे लाइव्ह भाषांतरासारख्या परिस्थितींमध्ये उपयुक्त ठरेल.

ही उदाहरणे व्हॉइस इंटरफेस पुढे कसे विकसित होऊ शकतात यातील मोठ्या बदलाकडे निर्देश करतात. अनेक वर्षांपासून, व्हॉइस प्रणालींनी वापरकर्त्यांना स्वच्छ, मर्यादित आदेश देण्यास शिकवले आहे. पुढचा टप्पा अशा प्रणालींवर अवलंबून असू शकतो ज्या संदिग्धता, व्यत्यय, वेळेचे नियमन, आणि समांतर संकेत एका मानवी सहकाऱ्याप्रमाणे हाताळू शकतील. तसे झाले तर, व्हॉइस एआयमधील स्पर्धा केवळ सर्वात मोठे बेस मॉडेल कोणाकडे आहे यावर जिंकली जाणार नाही, तर संवाद स्वतः कमी कृत्रिम कसा वाटेल हे कोण साध्य करतो यावर ठरेल.

तीच बाजारपेठेतील संधी Thinking Machines Lab मिळवू इच्छिते. व्हॉइसला शक्तिशाली मजकूर मॉडेलला जोडलेले एक फीचर म्हणून सादर करण्याऐवजी, ती इंटरअॅक्शनला पहिल्या दर्जाची समस्या म्हणून मांडत आहे. ही मांडणी उल्लेखनीय आहे, कारण ती सध्याच्या एआय उत्पादन विकासातील एक प्रमुख गृहितक आव्हानित करते: की सर्वसाधारण बुद्धिमत्तेतील सुधारणा नंतर आपोआप इंटरफेसची गुणवत्ता सोडवतील.

वचन, दबाव, आणि पुढे काय

ही रिलीज अजूनही फक्त संशोधन पूर्वावलोकन आहे, आणि कंपनीच्या स्वतःच्या परिस्थितीही महत्त्वाच्या आहेत. दिलेल्या स्रोतामध्ये नमूद आहे की अलीकडे अनेक महत्त्वाचे कर्मचारी स्टार्टअप सोडून गेले आहेत. याचा अर्थ हा तांत्रिक खुलासा अंमलबजावणी, मनुष्यबळ, आणि मजबूत संशोधन स्थितीला टिकाऊ उत्पादन आणि व्यवसायात रूपांतरित करता येईल का, या प्रश्नांसोबत येतो.

तरीही, जवळून पाहिल्या जाणाऱ्या एआय स्टार्टअप्सकडून होणारी पहिली मॉडेल लाँचेस मोठ्या प्रमाणावर वितरणापूर्वीच संपूर्ण क्षेत्रावर परिणाम करू शकतात. जर Thinking Machines Lab चे विलंब आणि इंटरअॅक्शन गुणवत्तेबाबतचे दावे व्यापक तपासणीत टिकले, तर प्रतिस्पर्ध्यांवर आधीच्या मॉडेल्सभोवती अधिक साधने जोडत राहण्याऐवजी, व्हॉइस सिस्टीम डिझाइनला वास्तुस्तरावर पुनर्विचार करण्याचा दबाव येऊ शकतो.

एक मोठा उद्योग परिणामही आहे. व्हॉइसला दीर्घकाळ एआयच्या सर्वात नैसर्गिक इंटरफेसेपैकी एक मानले गेले आहे, तरीही प्रत्यक्षात अनेक वापरकर्त्यांना सध्याचे सहाय्यक अजूनही नाजूक वाटतात. ऑडिओ, व्हिडिओ, आणि मजकूर यांमध्ये सातत्याने जाणणारी, बोलणारी, आणि जुळवून घेणारी प्रणाली त्या श्रेणीला बर्‍याच काळापासून वचन दिलेल्या ambient, conversational computing या कल्पनेच्या अधिक जवळ नेईल.

सध्या मुख्य निष्कर्ष संकुचित पण महत्त्वाचा आहे: या क्षेत्रातील सर्वात बारकाईने पाहिल्या जाणाऱ्या नव्या प्रयोगशाळांपैकी एकाने आपली सुरुवातीची चाल केली आहे, आणि तिने स्पर्धेसाठी थेट संवादाच्या गुणवत्तेची निवड केली आहे. मॉडेल लॉन्चच्या गर्दीत, ही एक वेगळी मांडणी आहे. ती टिकाऊ ठरते की नाही, हे स्वतंत्र पडताळणी, उत्पादनात रूपांतर, आणि संशोधन पूर्वावलोकनापलीकडे काहीतरी पाठवण्यासाठी आवश्यक असलेली टीम टिकवून ठेवण्याच्या स्टार्टअपच्या क्षमतेवर अवलंबून असेल.

हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com