वॉइस एआई पर एक अलग दांव
Thinking Machines Lab, जो पूर्व OpenAI मुख्य प्रौद्योगिकी अधिकारी मिरा मुराटी द्वारा स्थापित स्टार्टअप है, ने अपने पहले मॉडल का एक शोध पूर्वावलोकन जारी किया है और इसे आज के मुख्यधारा के वॉइस असिस्टेंट्स के काम करने के तरीके के सीधे चुनौती के रूप में प्रस्तुत किया है। कंपनी के विवरण के अनुसार, यह प्रणाली ऑडियो, वीडियो और टेक्स्ट को समानांतर रूप से 200-मिलीसेकंड के खंडों में संसाधित करती है, ताकि बातचीत को संकेतों और जवाबों की एक शृंखला के बजाय एक प्रवाही आदान-प्रदान जैसा महसूस कराया जा सके।
यह डिज़ाइन निर्णय महत्वपूर्ण है क्योंकि अधिकांश रियल-टाइम एआई उत्पाद अभी भी एक चरणबद्ध पाइपलाइन पर निर्भर हैं। उम्मीदवार के साथ दिए गए विवरण में, मौजूदा प्रणालियाँ लगातार ऑडियो प्राप्त करती रहती हैं, लेकिन मूल मॉडल सीधे पूरी लाइव इंटरैक्शन स्ट्रीम का अनुभव नहीं करता। इसके बजाय, बाहरी घटक यह तय करते हैं कि वक्ता कब समाप्त हुआ, कथन को पैकेज करते हैं, और तभी उसे पूर्ण प्रतिक्रिया के लिए मॉडल को सौंपते हैं। जब मॉडल बोल रहा होता है, उसकी धारणा प्रभावी रूप से रुक सकती है, जब तक कि उसे बीच में बाधित न किया जाए।
Thinking Machines Lab का तर्क है कि यह संरचना एक अंतर्निहित सीमा पैदा करती है। यदि किसी प्रणाली को टर्न-बाउंड्री का इंतजार करना पड़े और बोलने का समय तय करने के लिए निम्न-स्तरीय सहायक उपकरणों पर निर्भर रहना पड़े, तो उसे स्वाभाविक बातचीत में लोगों द्वारा अपेक्षित व्यवहारों से जूझना पड़ेगा। कंपनी का कहना है कि इसमें अनुरोध किए जाने पर सक्रिय रूप से बीच में टोकना, उपयुक्त होने पर एक साथ बोलना, और दृश्य संदर्भ पर लाइव प्रतिक्रिया देना शामिल है।
स्टार्टअप क्यों मानता है कि पुराना पैटर्न अपर्याप्त है
कंपनी की पेशकश केवल यह नहीं है कि उसने एक तेज़ मॉडल बनाया है। वह एआई में उत्पाद डिज़ाइन को लेकर एक व्यापक दावा कर रही है। उसके दृष्टिकोण में, इंटरैक्टिविटी को किसी सामान्य-उद्देश्य मॉडल के चारों ओर लिपटी पतली परत के रूप में नहीं देखा जाना चाहिए। यह मॉडल के मूल व्यवहार का हिस्सा होनी चाहिए।
यह तर्क Thinking Machines Lab को एआई बाज़ार के भीतर एक महत्वपूर्ण रणनीतिक स्थिति में रखता है। कई कंपनियों ने बड़े मॉडलों को तर्क, कोडिंग और खोज में अधिक सक्षम बनाने पर ध्यान दिया है, फिर उन पर ऑर्केस्ट्रेशन परतें जोड़कर उन्हें भाषण के लिए अनुकूलित किया है। Thinking Machines Lab का कहना है कि यह तरीका ऐसी प्रणालियाँ पैदा करता है जो स्पष्ट रूप से यांत्रिक बनी रहती हैं, भले ही वे सुनने में परिष्कृत लगें।
उम्मीदवार पाठ कहता है कि स्टार्टअप अपनी पद्धति की तुलना OpenAI के GPT-Realtime-2 और Google के Gemini Live जैसे उत्पादों से करता है। उसका दावा है कि बाहरी हार्नेस को ऐसे मॉडल से बदलकर जो लाइव ऑडियो और वीडियो स्ट्रीम को सीधे संसाधित करता है, प्रणाली इंटरैक्शन गुणवत्ता और विलंबता दोनों में सुधार कर सकती है। कंपनी यह भी कहती है कि उसका दृष्टिकोण एक तेज़ इंटरैक्शन मॉडल को एक बैकग्राउंड रीजनिंग मॉडल के साथ जोड़ता है, जो एक ऐसी वास्तुकला का संकेत देता है जो तात्कालिक संवादात्मक प्रतिक्रिया को गहरी गणना से अलग करती है।
मॉडल से क्या सक्षम होने की उम्मीद है
स्रोत में दिए गए व्यावहारिक उदाहरण काफी स्पष्ट हैं। अधिक मूलभूत इंटरैक्शन मॉडल ऐसे संवादों का समर्थन कर सकता है जहाँ उपयोगकर्ता सहायक से कहे कि अगर कुछ गलत लगे तो बीच में टोक दे, या जब उपयोगकर्ता स्क्रीन पर या कैमरे की दृष्टि में सक्रिय रूप से कुछ कर रहा हो, तब प्रतिक्रिया दे। यह भाषण में ओवरलैप को भी समर्थन दे सकता है, जो लाइव अनुवाद जैसे परिदृश्यों में उपयोगी होगा।
ये उदाहरण इस बात की ओर इशारा करते हैं कि वॉइस इंटरफेस किस तरह विकसित हो सकते हैं। वर्षों तक वॉइस प्रणालियों ने उपयोगकर्ताओं को साफ़, सीमित आदेश देने के लिए प्रशिक्षित किया है। अगला चरण उन प्रणालियों पर निर्भर हो सकता है जो अस्पष्टता, बाधा, समय-निर्धारण और समानांतर संकेतों को एक मानव सहयोगी की तरह संभाल सकें। यदि ऐसा होता है, तो वॉइस एआई में प्रतिस्पर्धा केवल इस बात पर नहीं जीती जाएगी कि किसके पास सबसे बड़ा बेस मॉडल है, बल्कि इस पर कि कौन इंटरैक्शन को स्वयं कम कृत्रिम महसूस करा सकता है।
यही बाज़ार अवसर Thinking Machines Lab पाना चाहता है। वॉइस को किसी शक्तिशाली टेक्स्ट मॉडल से जुड़ी हुई सुविधा के रूप में पेश करने के बजाय, वह इंटरैक्शन को एक प्रथम-स्तरीय समस्या के रूप में प्रस्तुत कर रहा है। यह framing उल्लेखनीय है क्योंकि यह मौजूदा एआई उत्पाद विकास की उन प्रमुख धारणाओं में से एक को चुनौती देती है: कि सामान्य बुद्धिमत्ता में सुधार बाद में स्वाभाविक रूप से इंटरफेस की गुणवत्ता की समस्या हल कर देंगे।
वादा, दबाव और आगे क्या
यह रिलीज़ अभी केवल एक शोध पूर्वावलोकन है, और कंपनी की अपनी परिस्थितियाँ भी महत्वपूर्ण हैं। दिए गए स्रोत में बताया गया है कि हाल ही में कई प्रमुख कर्मचारी स्टार्टअप छोड़ चुके हैं। इसका अर्थ है कि यह तकनीकी खुलासा क्रियान्वयन, स्टाफ़िंग, और क्या कंपनी एक मजबूत शोध स्थिति को टिकाऊ उत्पाद और व्यवसाय में बदल सकती है, जैसे सवालों के साथ सामने आता है।
फिर भी, करीबी नज़र से देखे जाने वाले एआई स्टार्टअप्स के प्रथम मॉडल लॉन्च व्यापक क्षेत्र को बड़े पैमाने पर परिनियोजन से पहले ही प्रभावित कर सकते हैं। यदि Thinking Machines Lab के विलंबता और इंटरैक्शन गुणवत्ता संबंधी दावे व्यापक जांच में टिकते हैं, तो प्रतिस्पर्धियों पर यह दबाव आ सकता है कि वे वॉइस सिस्टम डिज़ाइन को वास्तुकला के स्तर पर फिर से सोचें, बजाय इसके कि वे मौजूदा मॉडलों के चारों ओर और अधिक उपकरण जोड़ते रहें।
एक बड़ा उद्योगगत निहितार्थ भी है। वॉइस को लंबे समय से एआई के सबसे सहज इंटरफेसों में से एक माना गया है, फिर भी कई उपयोगकर्ताओं को मौजूदा सहायक व्यावहारिक रूप से नाज़ुक लगते हैं। एक ऐसा सिस्टम जो ऑडियो, वीडियो और टेक्स्ट के पार निरंतर रूप से perceiv, बोले और अनुकूलित हो सके, उस श्रेणी को लंबे समय से वादित एंबिएंट, संवादात्मक कंप्यूटिंग के विचार के और करीब ले जाएगा।
अभी के लिए मुख्य निष्कर्ष अधिक संकीर्ण लेकिन फिर भी महत्वपूर्ण है: इस क्षेत्र की सबसे करीबी निगरानी में रहने वाली नई प्रयोगशालाओं में से एक ने अपना पहला कदम उठाया है, और उसने प्रतिस्पर्धा के लिए इंटरैक्शन की गुणवत्ता को चुना है। मॉडलों के लॉन्च से भरे बाज़ार में, यह एक अलग थीसिस है। यह कितनी टिकाऊ साबित होगी, यह स्वतंत्र सत्यापन, उत्पादीकरण, और शोध पूर्वावलोकन से आगे कुछ जारी करने के लिए ज़रूरी टीम को बनाए रखने की स्टार्टअप की क्षमता पर निर्भर करेगा।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com


