Thinking Machines Lab ने रियल-टाइम मल्टीमोडल वॉइस एआई मॉडल लॉन्च किया

वॉइस एआई पर एक अलग दांव

Thinking Machines Lab, जो पूर्व OpenAI मुख्य प्रौद्योगिकी अधिकारी मिरा मुराटी द्वारा स्थापित स्टार्टअप है, ने अपने पहले मॉडल का एक शोध पूर्वावलोकन जारी किया है और इसे आज के मुख्यधारा के वॉइस असिस्टेंट्स के काम करने के तरीके के सीधे चुनौती के रूप में प्रस्तुत किया है। कंपनी के विवरण के अनुसार, यह प्रणाली ऑडियो, वीडियो और टेक्स्ट को समानांतर रूप से 200-मिलीसेकंड के खंडों में संसाधित करती है, ताकि बातचीत को संकेतों और जवाबों की एक शृंखला के बजाय एक प्रवाही आदान-प्रदान जैसा महसूस कराया जा सके।

यह डिज़ाइन निर्णय महत्वपूर्ण है क्योंकि अधिकांश रियल-टाइम एआई उत्पाद अभी भी एक चरणबद्ध पाइपलाइन पर निर्भर हैं। उम्मीदवार के साथ दिए गए विवरण में, मौजूदा प्रणालियाँ लगातार ऑडियो प्राप्त करती रहती हैं, लेकिन मूल मॉडल सीधे पूरी लाइव इंटरैक्शन स्ट्रीम का अनुभव नहीं करता। इसके बजाय, बाहरी घटक यह तय करते हैं कि वक्ता कब समाप्त हुआ, कथन को पैकेज करते हैं, और तभी उसे पूर्ण प्रतिक्रिया के लिए मॉडल को सौंपते हैं। जब मॉडल बोल रहा होता है, उसकी धारणा प्रभावी रूप से रुक सकती है, जब तक कि उसे बीच में बाधित न किया जाए।

Thinking Machines Lab का तर्क है कि यह संरचना एक अंतर्निहित सीमा पैदा करती है। यदि किसी प्रणाली को टर्न-बाउंड्री का इंतजार करना पड़े और बोलने का समय तय करने के लिए निम्न-स्तरीय सहायक उपकरणों पर निर्भर रहना पड़े, तो उसे स्वाभाविक बातचीत में लोगों द्वारा अपेक्षित व्यवहारों से जूझना पड़ेगा। कंपनी का कहना है कि इसमें अनुरोध किए जाने पर सक्रिय रूप से बीच में टोकना, उपयुक्त होने पर एक साथ बोलना, और दृश्य संदर्भ पर लाइव प्रतिक्रिया देना शामिल है।

स्टार्टअप क्यों मानता है कि पुराना पैटर्न अपर्याप्त है

कंपनी की पेशकश केवल यह नहीं है कि उसने एक तेज़ मॉडल बनाया है। वह एआई में उत्पाद डिज़ाइन को लेकर एक व्यापक दावा कर रही है। उसके दृष्टिकोण में, इंटरैक्टिविटी को किसी सामान्य-उद्देश्य मॉडल के चारों ओर लिपटी पतली परत के रूप में नहीं देखा जाना चाहिए। यह मॉडल के मूल व्यवहार का हिस्सा होनी चाहिए।

यह तर्क Thinking Machines Lab को एआई बाज़ार के भीतर एक महत्वपूर्ण रणनीतिक स्थिति में रखता है। कई कंपनियों ने बड़े मॉडलों को तर्क, कोडिंग और खोज में अधिक सक्षम बनाने पर ध्यान दिया है, फिर उन पर ऑर्केस्ट्रेशन परतें जोड़कर उन्हें भाषण के लिए अनुकूलित किया है। Thinking Machines Lab का कहना है कि यह तरीका ऐसी प्रणालियाँ पैदा करता है जो स्पष्ट रूप से यांत्रिक बनी रहती हैं, भले ही वे सुनने में परिष्कृत लगें।

उम्मीदवार पाठ कहता है कि स्टार्टअप अपनी पद्धति की तुलना OpenAI के GPT-Realtime-2 और Google के Gemini Live जैसे उत्पादों से करता है। उसका दावा है कि बाहरी हार्नेस को ऐसे मॉडल से बदलकर जो लाइव ऑडियो और वीडियो स्ट्रीम को सीधे संसाधित करता है, प्रणाली इंटरैक्शन गुणवत्ता और विलंबता दोनों में सुधार कर सकती है। कंपनी यह भी कहती है कि उसका दृष्टिकोण एक तेज़ इंटरैक्शन मॉडल को एक बैकग्राउंड रीजनिंग मॉडल के साथ जोड़ता है, जो एक ऐसी वास्तुकला का संकेत देता है जो तात्कालिक संवादात्मक प्रतिक्रिया को गहरी गणना से अलग करती है।

Google says it stopped a mass cyberattack after AI was used to discover a zero-day exploit

More in AI & Robotics

Google का कहना है कि हमलावरों ने एक ज़ीरो-डे खोजने और बड़े साइबर हमले की तैयारी के लिए AI का इस्तेमाल किया

Google के Threat Intelligence Group का कहना है कि उसने किसी threat actor द्वारा AI का उपयोग करके एक zero-day vulnerability खोजने और उसे weaponize करने का पहला ज्ञात मामला पहचाना, और कहा कि नियोजित बड़े हमले को रोक दिया गया।

Read article

मॉडल से क्या सक्षम होने की उम्मीद है

स्रोत में दिए गए व्यावहारिक उदाहरण काफी स्पष्ट हैं। अधिक मूलभूत इंटरैक्शन मॉडल ऐसे संवादों का समर्थन कर सकता है जहाँ उपयोगकर्ता सहायक से कहे कि अगर कुछ गलत लगे तो बीच में टोक दे, या जब उपयोगकर्ता स्क्रीन पर या कैमरे की दृष्टि में सक्रिय रूप से कुछ कर रहा हो, तब प्रतिक्रिया दे। यह भाषण में ओवरलैप को भी समर्थन दे सकता है, जो लाइव अनुवाद जैसे परिदृश्यों में उपयोगी होगा।

ये उदाहरण इस बात की ओर इशारा करते हैं कि वॉइस इंटरफेस किस तरह विकसित हो सकते हैं। वर्षों तक वॉइस प्रणालियों ने उपयोगकर्ताओं को साफ़, सीमित आदेश देने के लिए प्रशिक्षित किया है। अगला चरण उन प्रणालियों पर निर्भर हो सकता है जो अस्पष्टता, बाधा, समय-निर्धारण और समानांतर संकेतों को एक मानव सहयोगी की तरह संभाल सकें। यदि ऐसा होता है, तो वॉइस एआई में प्रतिस्पर्धा केवल इस बात पर नहीं जीती जाएगी कि किसके पास सबसे बड़ा बेस मॉडल है, बल्कि इस पर कि कौन इंटरैक्शन को स्वयं कम कृत्रिम महसूस करा सकता है।

यही बाज़ार अवसर Thinking Machines Lab पाना चाहता है। वॉइस को किसी शक्तिशाली टेक्स्ट मॉडल से जुड़ी हुई सुविधा के रूप में पेश करने के बजाय, वह इंटरैक्शन को एक प्रथम-स्तरीय समस्या के रूप में प्रस्तुत कर रहा है। यह framing उल्लेखनीय है क्योंकि यह मौजूदा एआई उत्पाद विकास की उन प्रमुख धारणाओं में से एक को चुनौती देती है: कि सामान्य बुद्धिमत्ता में सुधार बाद में स्वाभाविक रूप से इंटरफेस की गुणवत्ता की समस्या हल कर देंगे।

वादा, दबाव और आगे क्या

यह रिलीज़ अभी केवल एक शोध पूर्वावलोकन है, और कंपनी की अपनी परिस्थितियाँ भी महत्वपूर्ण हैं। दिए गए स्रोत में बताया गया है कि हाल ही में कई प्रमुख कर्मचारी स्टार्टअप छोड़ चुके हैं। इसका अर्थ है कि यह तकनीकी खुलासा क्रियान्वयन, स्टाफ़िंग, और क्या कंपनी एक मजबूत शोध स्थिति को टिकाऊ उत्पाद और व्यवसाय में बदल सकती है, जैसे सवालों के साथ सामने आता है।

फिर भी, करीबी नज़र से देखे जाने वाले एआई स्टार्टअप्स के प्रथम मॉडल लॉन्च व्यापक क्षेत्र को बड़े पैमाने पर परिनियोजन से पहले ही प्रभावित कर सकते हैं। यदि Thinking Machines Lab के विलंबता और इंटरैक्शन गुणवत्ता संबंधी दावे व्यापक जांच में टिकते हैं, तो प्रतिस्पर्धियों पर यह दबाव आ सकता है कि वे वॉइस सिस्टम डिज़ाइन को वास्तुकला के स्तर पर फिर से सोचें, बजाय इसके कि वे मौजूदा मॉडलों के चारों ओर और अधिक उपकरण जोड़ते रहें।

एक बड़ा उद्योगगत निहितार्थ भी है। वॉइस को लंबे समय से एआई के सबसे सहज इंटरफेसों में से एक माना गया है, फिर भी कई उपयोगकर्ताओं को मौजूदा सहायक व्यावहारिक रूप से नाज़ुक लगते हैं। एक ऐसा सिस्टम जो ऑडियो, वीडियो और टेक्स्ट के पार निरंतर रूप से perceiv, बोले और अनुकूलित हो सके, उस श्रेणी को लंबे समय से वादित एंबिएंट, संवादात्मक कंप्यूटिंग के विचार के और करीब ले जाएगा।

अभी के लिए मुख्य निष्कर्ष अधिक संकीर्ण लेकिन फिर भी महत्वपूर्ण है: इस क्षेत्र की सबसे करीबी निगरानी में रहने वाली नई प्रयोगशालाओं में से एक ने अपना पहला कदम उठाया है, और उसने प्रतिस्पर्धा के लिए इंटरैक्शन की गुणवत्ता को चुना है। मॉडलों के लॉन्च से भरे बाज़ार में, यह एक अलग थीसिस है। यह कितनी टिकाऊ साबित होगी, यह स्वतंत्र सत्यापन, उत्पादीकरण, और शोध पूर्वावलोकन से आगे कुछ जारी करने के लिए ज़रूरी टीम को बनाए रखने की स्टार्टअप की क्षमता पर निर्भर करेगा।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Malicious Hugging Face model masquerading as OpenAI release hits 244K downloads (via csoonline.com)

More in AI & Robotics

OpenAI रिलीज़ के रूप में छिपा मैलवेयर Hugging Face उपयोगकर्ताओं तक पहुँचा

Hugging Face पर होस्ट किया गया एक दुर्भावनापूर्ण रिपॉजिटरी कथित तौर पर OpenAI रिलीज़ के रूप में पेश हुआ, और हटाए जाने से पहले Windows सिस्टमों में infostealer मैलवेयर फैलाता रहा।

Read article

Originally published on the-decoder.com

वॉइस एआई पर एक अलग दांव

स्टार्टअप क्यों मानता है कि पुराना पैटर्न अपर्याप्त है

More in AI & Robotics

Google का कहना है कि हमलावरों ने एक ज़ीरो-डे खोजने और बड़े साइबर हमले की तैयारी के लिए AI का इस्तेमाल किया

Read article

मॉडल से क्या सक्षम होने की उम्मीद है

वादा, दबाव और आगे क्या

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

More in AI & Robotics

OpenAI रिलीज़ के रूप में छिपा मैलवेयर Hugging Face उपयोगकर्ताओं तक पहुँचा

Read article

Originally published on the-decoder.com

Thinking Machines Lab ने संवाद-केंद्रित रियल-टाइम मल्टीमोडल मॉडल का अनावरण किया

वॉइस एआई पर एक अलग दांव

स्टार्टअप क्यों मानता है कि पुराना पैटर्न अपर्याप्त है

Google का कहना है कि हमलावरों ने एक ज़ीरो-डे खोजने और बड़े साइबर हमले की तैयारी के लिए AI का इस्तेमाल किया

मॉडल से क्या सक्षम होने की उम्मीद है

वादा, दबाव और आगे क्या

OpenAI रिलीज़ के रूप में छिपा मैलवेयर Hugging Face उपयोगकर्ताओं तक पहुँचा

Comments (0)

Keep Reading

Thinking Machines Lab ने संवाद-केंद्रित रियल-टाइम मल्टीमोडल मॉडल का अनावरण किया

वॉइस एआई पर एक अलग दांव

स्टार्टअप क्यों मानता है कि पुराना पैटर्न अपर्याप्त है

Google का कहना है कि हमलावरों ने एक ज़ीरो-डे खोजने और बड़े साइबर हमले की तैयारी के लिए AI का इस्तेमाल किया

मॉडल से क्या सक्षम होने की उम्मीद है

वादा, दबाव और आगे क्या

OpenAI रिलीज़ के रूप में छिपा मैलवेयर Hugging Face उपयोगकर्ताओं तक पहुँचा

Comments (0)

Keep Reading