Thinking Machines Lab ने रिअल-टाइम मल्टीमोडल व्हॉइस एआय मॉडेल लाँच केले

व्हॉइस एआयवर वेगळी बाजी

Thinking Machines Lab, ही माजी OpenAI मुख्य तंत्रज्ञान अधिकारी मिरा मुराटी यांनी स्थापन केलेली स्टार्टअप कंपनी, हिने आपल्या पहिल्या मॉडेलचा एक संशोधन पूर्वावलोकन जाहीर केला आहे आणि आजच्या मुख्य प्रवाहातील व्हॉइस असिस्टंट्स ज्या पद्धतीने काम करतात त्याला थेट आव्हान म्हणून ते मांडले आहे. कंपनीच्या वर्णनानुसार, ही प्रणाली ऑडिओ, व्हिडिओ, आणि मजकूर यांना समांतरपणे 200-मिलिसेकंदांच्या तुकड्यांत प्रक्रिया करते, ज्याचा उद्देश संभाषणाला प्रश्न-उत्तरांच्या मालिकेसारखे न वाटता अधिक प्रवाही देवाणघेवाणीप्रमाणे वाटावे असा आहे.

हा डिझाइन निर्णय महत्त्वाचा आहे, कारण बहुतेक रिअल-टाइम एआय उत्पादने अजूनही टप्प्याटप्प्याच्या पाइपलाइनवर अवलंबून आहेत. उमेदवारासोबत दिलेल्या वर्णनानुसार, सध्याच्या प्रणाली सतत ऑडिओ घेत राहतात, पण मूळ मॉडेलला संपूर्ण थेट संवाद प्रवाहाचा थेट अनुभव मिळत नाही. त्याऐवजी, बाह्य घटक वक्ता कधी थांबला हे ठरवतात, त्या वक्तव्याचे पॅकेजिंग करतात, आणि मगच ते पूर्ण प्रतिसादासाठी मॉडेलकडे देतात. मॉडेल बोलत असताना, त्याची जाणीव प्रत्यक्षात थांबू शकते, जोपर्यंत त्यात अडथळा आणला जात नाही.

Thinking Machines Lab असे म्हणते की या रचनेत अंगभूत मर्यादा आहे. जर एखाद्या प्रणालीला टर्न-बाउंडरीची वाट पाहावी लागत असेल आणि कधी बोलायचे हे ठरवण्यासाठी खालच्या स्तरावरील सहाय्यक साधनांवर अवलंबून राहावे लागत असेल, तर नैसर्गिक संभाषणात लोक अपेक्षित करतात त्या वर्तनांशी ती झगडेल. कंपनीच्या मते, यामध्ये विचारणा झाल्यावर पुढाकार घेऊन मध्येच थांबवणे, योग्य ठिकाणी एकाच वेळी बोलणे, आणि दृश्य संदर्भाला थेट प्रतिसाद देणे यांचा समावेश होतो.

जुना पॅटर्न अपुरा का पडतो, असे स्टार्टअपने मानले आहे

कंपनीची मांडणी केवळ आपण अधिक वेगवान मॉडेल बनवले आहे, इतकीच नाही. ती एआयमधील उत्पादन डिझाइनबाबत एक व्यापक दावा करत आहे. तिच्या मते, इंटरअॅक्टिव्हिटी ही सर्वसाधारण उद्देशाच्या मॉडेलभोवती गुंडाळलेली पातळ थर मानू नये. ती मॉडेलच्या मूळ वर्तनाचा भाग असली पाहिजे.

हा युक्तिवाद Thinking Machines Lab ला एआय बाजारात एक महत्त्वाच्या धोरणात्मक स्थानावर ठेवतो. अनेक कंपन्यांनी मोठ्या मॉडेल्सना तर्कशक्ती, कोडिंग, आणि शोधात अधिक सक्षम बनवण्यावर लक्ष केंद्रित केले आहे, आणि मग त्यांना भाषणासाठी जुळवण्यासाठी ऑर्केस्ट्रेशन लेअर्स जोडले आहेत. Thinking Machines Lab म्हणते की या पद्धतीमुळे प्रणाली स्वच्छ वाटल्या तरी त्या ओळखण्याजोग्या यांत्रिकच राहतात.

उमेदवार मजकुरात म्हटले आहे की ही स्टार्टअप आपली पद्धत OpenAI च्या GPT-Realtime-2 आणि Google च्या Gemini Live सारख्या उत्पादनांशी तुलना करते. तिचा दावा असा आहे की बाह्य हार्नेसऐवजी थेट लाइव्ह ऑडिओ आणि व्हिडिओ स्ट्रीम प्रक्रिया करणारे मॉडेल वापरल्यास, प्रणाली संवादाची गुणवत्ता आणि विलंब दोन्ही सुधारू शकते. कंपनी असेही म्हणते की तिची पद्धत एक वेगवान इंटरअॅक्शन मॉडेल आणि बॅकग्राउंड रिझनिंग मॉडेल यांची सांगड घालते, ज्यातून तात्काळ संभाषणात्मक प्रतिसादक्षमता आणि खोल गणना यांना वेगळे करणारी एक वास्तुकला सूचित होते.

Google says it stopped a mass cyberattack after AI was used to discover a zero-day exploit

More in AI & Robotics

zero-day शोधण्यासाठी आणि मोठ्या सायबर हल्ल्याची तयारी करण्यासाठी हल्लेखोरांनी AI वापरल्याचे Google चे म्हणणे

Google’s Threat Intelligence Group म्हणते की AI वापरून zero-day vulnerability शोधून तिला weaponize केल्याचा पहिला ज्ञात प्रकार त्यांनी ओळखला आहे, आणि नियोजित मोठा हल्ला थांबवण्यात आला असेही ते म्हणतात.

Read article

मॉडेल कशासाठी सक्षम करायचे आहे

स्रोतामधील व्यावहारिक उदाहरणे लक्षवेधी आहेत. अधिक नैसर्गिक इंटरअॅक्शन मॉडेल अशा देवाणघेवाणांना पाठबळ देऊ शकते, जिथे वापरकर्ता सहाय्यकाला काहीतरी चूक वाटल्यास मध्येच थांबवायला सांगतो, किंवा वापरकर्ता स्क्रीनवर किंवा कॅमेऱ्याच्या दृश्यात सक्रियपणे काही करत असताना प्रतिक्रिया देतो. ते बोलण्यात ओव्हरलॅपलाही पाठिंबा देऊ शकते, जे लाइव्ह भाषांतरासारख्या परिस्थितींमध्ये उपयुक्त ठरेल.

ही उदाहरणे व्हॉइस इंटरफेस पुढे कसे विकसित होऊ शकतात यातील मोठ्या बदलाकडे निर्देश करतात. अनेक वर्षांपासून, व्हॉइस प्रणालींनी वापरकर्त्यांना स्वच्छ, मर्यादित आदेश देण्यास शिकवले आहे. पुढचा टप्पा अशा प्रणालींवर अवलंबून असू शकतो ज्या संदिग्धता, व्यत्यय, वेळेचे नियमन, आणि समांतर संकेत एका मानवी सहकाऱ्याप्रमाणे हाताळू शकतील. तसे झाले तर, व्हॉइस एआयमधील स्पर्धा केवळ सर्वात मोठे बेस मॉडेल कोणाकडे आहे यावर जिंकली जाणार नाही, तर संवाद स्वतः कमी कृत्रिम कसा वाटेल हे कोण साध्य करतो यावर ठरेल.

तीच बाजारपेठेतील संधी Thinking Machines Lab मिळवू इच्छिते. व्हॉइसला शक्तिशाली मजकूर मॉडेलला जोडलेले एक फीचर म्हणून सादर करण्याऐवजी, ती इंटरअॅक्शनला पहिल्या दर्जाची समस्या म्हणून मांडत आहे. ही मांडणी उल्लेखनीय आहे, कारण ती सध्याच्या एआय उत्पादन विकासातील एक प्रमुख गृहितक आव्हानित करते: की सर्वसाधारण बुद्धिमत्तेतील सुधारणा नंतर आपोआप इंटरफेसची गुणवत्ता सोडवतील.

वचन, दबाव, आणि पुढे काय

ही रिलीज अजूनही फक्त संशोधन पूर्वावलोकन आहे, आणि कंपनीच्या स्वतःच्या परिस्थितीही महत्त्वाच्या आहेत. दिलेल्या स्रोतामध्ये नमूद आहे की अलीकडे अनेक महत्त्वाचे कर्मचारी स्टार्टअप सोडून गेले आहेत. याचा अर्थ हा तांत्रिक खुलासा अंमलबजावणी, मनुष्यबळ, आणि मजबूत संशोधन स्थितीला टिकाऊ उत्पादन आणि व्यवसायात रूपांतरित करता येईल का, या प्रश्नांसोबत येतो.

तरीही, जवळून पाहिल्या जाणाऱ्या एआय स्टार्टअप्सकडून होणारी पहिली मॉडेल लाँचेस मोठ्या प्रमाणावर वितरणापूर्वीच संपूर्ण क्षेत्रावर परिणाम करू शकतात. जर Thinking Machines Lab चे विलंब आणि इंटरअॅक्शन गुणवत्तेबाबतचे दावे व्यापक तपासणीत टिकले, तर प्रतिस्पर्ध्यांवर आधीच्या मॉडेल्सभोवती अधिक साधने जोडत राहण्याऐवजी, व्हॉइस सिस्टीम डिझाइनला वास्तुस्तरावर पुनर्विचार करण्याचा दबाव येऊ शकतो.

एक मोठा उद्योग परिणामही आहे. व्हॉइसला दीर्घकाळ एआयच्या सर्वात नैसर्गिक इंटरफेसेपैकी एक मानले गेले आहे, तरीही प्रत्यक्षात अनेक वापरकर्त्यांना सध्याचे सहाय्यक अजूनही नाजूक वाटतात. ऑडिओ, व्हिडिओ, आणि मजकूर यांमध्ये सातत्याने जाणणारी, बोलणारी, आणि जुळवून घेणारी प्रणाली त्या श्रेणीला बर्‍याच काळापासून वचन दिलेल्या ambient, conversational computing या कल्पनेच्या अधिक जवळ नेईल.

सध्या मुख्य निष्कर्ष संकुचित पण महत्त्वाचा आहे: या क्षेत्रातील सर्वात बारकाईने पाहिल्या जाणाऱ्या नव्या प्रयोगशाळांपैकी एकाने आपली सुरुवातीची चाल केली आहे, आणि तिने स्पर्धेसाठी थेट संवादाच्या गुणवत्तेची निवड केली आहे. मॉडेल लॉन्चच्या गर्दीत, ही एक वेगळी मांडणी आहे. ती टिकाऊ ठरते की नाही, हे स्वतंत्र पडताळणी, उत्पादनात रूपांतर, आणि संशोधन पूर्वावलोकनापलीकडे काहीतरी पाठवण्यासाठी आवश्यक असलेली टीम टिकवून ठेवण्याच्या स्टार्टअपच्या क्षमतेवर अवलंबून असेल.

हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

More in AI & Robotics

नवीन task-handling agents सह Google Gemini ला Android मध्ये अधिक खोलवर नेत आहे

Samsung Galaxy S26 आणि Google Pixel 10 वर सर्वप्रथम येणारी नवीन Gemini-सक्षम वैशिष्ट्ये Android वापरकर्त्यांना बहुपायरी कामे पूर्ण करण्यास, वेब मजकूर संक्षेप करण्यास, फॉर्म भरण्यास, आणि कच्च्या voice notes ला नीटस मजकुरात बदलण्यास मदत करतील, असे Google सांगते

Read article

Originally published on the-decoder.com

व्हॉइस एआयवर वेगळी बाजी

जुना पॅटर्न अपुरा का पडतो, असे स्टार्टअपने मानले आहे

More in AI & Robotics

zero-day शोधण्यासाठी आणि मोठ्या सायबर हल्ल्याची तयारी करण्यासाठी हल्लेखोरांनी AI वापरल्याचे Google चे म्हणणे

Read article

मॉडेल कशासाठी सक्षम करायचे आहे

वचन, दबाव, आणि पुढे काय

हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

More in AI & Robotics

नवीन task-handling agents सह Google Gemini ला Android मध्ये अधिक खोलवर नेत आहे

Read article

Originally published on the-decoder.com

Thinking Machines Lab ने संभाषणाभोवती बांधलेले रिअल-टाइम मल्टीमोडल मॉडेल सादर केले

व्हॉइस एआयवर वेगळी बाजी

जुना पॅटर्न अपुरा का पडतो, असे स्टार्टअपने मानले आहे

zero-day शोधण्यासाठी आणि मोठ्या सायबर हल्ल्याची तयारी करण्यासाठी हल्लेखोरांनी AI वापरल्याचे Google चे म्हणणे

मॉडेल कशासाठी सक्षम करायचे आहे

वचन, दबाव, आणि पुढे काय

नवीन task-handling agents सह Google Gemini ला Android मध्ये अधिक खोलवर नेत आहे

Comments (0)

Keep Reading

Thinking Machines Lab ने संभाषणाभोवती बांधलेले रिअल-टाइम मल्टीमोडल मॉडेल सादर केले

व्हॉइस एआयवर वेगळी बाजी

जुना पॅटर्न अपुरा का पडतो, असे स्टार्टअपने मानले आहे

zero-day शोधण्यासाठी आणि मोठ्या सायबर हल्ल्याची तयारी करण्यासाठी हल्लेखोरांनी AI वापरल्याचे Google चे म्हणणे

मॉडेल कशासाठी सक्षम करायचे आहे

वचन, दबाव, आणि पुढे काय

नवीन task-handling agents सह Google Gemini ला Android मध्ये अधिक खोलवर नेत आहे

Comments (0)

Keep Reading