Google ने iPhone पर चुपचाप ऑफलाइन-प्राथमिक AI डिक्टेशन ऐप लॉन्च किया

Google enters a fast-moving dictation race

Google ने चुपचाप एक नया iPhone ऐप जारी किया है जिसका नाम Google AI Edge Eloquent है। यह एक प्रयोगात्मक डिक्टेशन टूल है जो स्थानीय प्रोसेसिंग और बोले गए पाठ की AI-सहायता प्राप्त सफाई पर जोर देता है। इस रिलीज़ के साथ Google सीधे उन बढ़ते हुए voice-to-text उत्पादों के क्षेत्र में उतरता दिखता है, जैसे Wispr Flow, SuperWhisper और Willow, जो सभी कच्चे speech recognition को परिष्कृत लेखन में बदलने की कोशिश कर रहे हैं।

समय महत्वपूर्ण है, क्योंकि speech interfaces तेज़ी से बेहतर हो रही हैं। जैसे-जैसे automatic speech recognition models अधिक सटीक होते जा रहे हैं और छोटे models उपभोक्ता उपकरणों पर व्यावहारिक हो रहे हैं, बाजार साधारण transcription से उन टूल्स की ओर बढ़ रहा है जो बोली गई भाषा को अधिक साफ, उपयोगी prose में दोबारा लिख सकें। Google का नया ऐप स्पष्ट रूप से इसी बदलाव के लिए बनाया गया प्रतीत होता है।

दिए गए source text के अनुसार, यह ऐप iOS पर मुफ़्त है और डिवाइस पर डाउनलोड होने के बाद Gemma-आधारित automatic speech recognition models का उपयोग करता है। इसका अर्थ है कि मुख्य dictation पूरी तरह cloud connection पर निर्भर हुए बिना स्थानीय रूप से चल सकता है। ऐसे समय में जब AI उत्पाद अक्सर server-side processing को डिफ़ॉल्ट मान लेते हैं, offline-first design एक privacy feature और reliability feature दोनों के रूप में अलग दिखता है, खासकर उन उपयोगकर्ताओं के लिए जो चाहते हैं कि speech tools अधिक परिस्थितियों में काम करें।

सिर्फ transcription नहीं

इस उत्पाद को केवल एक ऐसे recorder के रूप में नहीं दिखाया गया है जो speech को शब्दशः text में बदल दे। इसके बजाय, यह natural speech और तैयार-से-उपयोग लेखन के बीच की दूरी को पाटने का लक्ष्य रखता है। ऐप बोलते समय live transcript दिखाता है, फिर session pause होने पर cleanup का दूसरा चरण चलाता है। दिए गए विवरण के अनुसार, यह “um” और “ah” जैसे filler words हटाकर self-corrections को भी smooth कर सकता है ताकि साफ़ output तैयार हो।

यह design choice महत्वपूर्ण है, क्योंकि बोली जाने वाली भाषा और लिखित भाषा एक जैसी नहीं होतीं। लोग रुकते हैं, विचार फिर से शुरू करते हैं और वाक्य के बीच में भटक जाते हैं, जो पन्ने पर भद्दा दिख सकता है, भले ही आशय स्पष्ट हो। AI dictation products अब इस बात पर प्रतिस्पर्धा कर रहे हैं कि वे उपयोगकर्ता के अर्थ को ज़्यादा बदले बिना intent को कितना अच्छी तरह समझ सकते हैं। Google इस editorial layer को एक core feature की तरह देखता हुआ लगता है, न कि किसी add-on की तरह।

source report के अनुसार, ऐप में “Key points,” “Formal,” “Short” और “Long” नामक transformation options भी हैं। ये controls संकेत देते हैं कि Google transcription को हल्की text generation के साथ जोड़ रहा है। केवल accurate capture पर रुकने के बजाय, ऐप output को अलग-अलग संदर्भों के लिए ढाल सकता है, चाहे उपयोगकर्ता summary चाहता हो, अधिक formal tone, या छोटा संस्करण।

Photo illustration of Dario Amodei of Anthropic.

Anthropic ने IPO प्रक्रिया शुरू करने के लिए गोपनीय रूप से फाइल किया

Anthropic का कहना है कि उसने अमेरिकी प्रतिभूति और विनिमय आयोग को एक ड्राफ्ट रजिस्ट्रेशन स्टेटमेंट सौंप दिया है, जिससे सार्वजनिक लिस्टिंग की प्रक्रिया शुरू हो गई है।

Read article

Local mode और cloud mode एक hybrid strategy की ओर इशारा करते हैं

उत्पाद का एक उल्लेखनीय विवरण यह है कि cloud processing को बंद किया जा सकता है। cloud mode चालू होने पर ऐप text cleanup के लिए Gemini models का उपयोग करता है। जब इसे बंद किया जाता है, अनुभव local-only रहता है। इससे एक hybrid architecture बनती है: on-device models मुख्य dictation workflow संभालते हैं, जबकि ज़रूरत पड़ने पर अतिरिक्त processing के लिए cloud जोड़ा जा सकता है।

यह एक व्यावहारिक product strategy है। local processing latency कम करता है, ऐप को offline काम करने देता है और उन उपयोगकर्ताओं को आकर्षित कर सकता है जो audio या drafts को remote servers पर भेजने को लेकर सतर्क हैं। दूसरी ओर, cloud processing कनेक्शन उपलब्ध होने पर अधिक सक्षम text cleanup की अनुमति देता है। उपयोगकर्ताओं को पूरी तरह local या पूरी तरह cloud assistant में से किसी एक को चुनने के लिए मजबूर करने के बजाय, Google यह परख रहा है कि क्या दोनों modes एक ही writing tool में साथ रह सकते हैं।

यदि उपयोगकर्ता opt in करता है, तो ऐप उसके Gmail account से कुछ keywords, names और jargon भी import कर सकता है। यह manual custom words जोड़ने की सुविधा भी देता है। यह महत्वपूर्ण है, क्योंकि dictation quality अक्सर proper nouns, specialist terms और व्यक्तिगत vocabulary पर गिर जाती है। Personalised dictionaries उपयोगिता को काफ़ी बढ़ा सकते हैं, खासकर कार्यस्थलों में, जहाँ लोग नियमित रूप से product names, company terms या technical language बोलते हैं जिन्हें generic models चूक सकते हैं।

iPhone launch से परे संकेत

हालाँकि ऐप अभी iOS पर उपलब्ध है, source text नोट करता है कि App Store description में Android integration का उल्लेख था, जिसमें text fields में default keyboard के रूप में tool का उपयोग और floating button के ज़रिए transcription तक पहुँच शामिल थी। बाद में source द्वारा उद्धृत एक update ने Android app के उल्लेख हटा दिए, जबकि यह जोड़ा गया कि iOS keyboard जल्द आ रहा है।

यह क्रम संकेत देता है कि रिलीज़ अभी शुरुआती, कुछ हद तक बदलते चरण में है। लेकिन यह एक standalone iPhone app से बड़ी महत्वाकांक्षा की ओर भी इशारा करता है। system-wide keyboard access उत्पाद को रणनीतिक रूप से अधिक महत्वपूर्ण बना देगा, क्योंकि dictation एक ही interface तक सीमित नहीं रहेगी। यह messaging, note-taking, email और document workflows के लिए एक layer बन सकती है।

यदि Google अंततः इस concept को Android में और गहराई से लाता है, तो वह ऐसे platform advantages का उपयोग कर सकता है जिन्हें छोटे competitors आसानी से नहीं मिला सकते। default keyboard या व्यापक operating system में integration Google को एक अकेले experimental app से कहीं अधिक व्यापक distribution path देगा। भले ही Eloquent एक test bed बना रहे, परखी जा रही features आगे चलकर Google के mobile ecosystem में transcription और voice features को shape कर सकती हैं।

I put my smart TV setup behind a router-based VPN and never looked back - here's why

स्मार्ट टीवी पर VPN का उपयोग अब घरेलू नेटवर्क सुरक्षा का एक उपाय बन रहा है

स्मार्ट टीवी के लिए राउटर-आधारित VPN को सिर्फ स्ट्रीमिंग एक्सेस के लिए नहीं, बल्कि जुड़े हुए घरेलू उपकरणों में डेटा एक्सपोज़र कम करने के तरीके के रूप में पेश किया जा रहा है।

Read article

यह रिलीज़ क्यों मायने रखती है

सबसे महत्वपूर्ण निष्कर्ष यह नहीं है कि Google ने एक और AI app लॉन्च किया है। बात यह है कि कंपनी speech recognition, editing assistance और personal productivity के बीच स्थित एक product category का परीक्षण कर रही है। छोटे models के बेहतर होने के साथ यह category अधिक व्यावहारिक हो गई है, और यह उद्योग के व्यापक प्रयास से मेल खाती है जिसमें AI tools को chatbots की बजाय invisible workflow utilities जैसा बनाना चाहा जा रहा है।

Google का ऐप AI product design में एक व्यापक बदलाव को भी दर्शाता है। उपयोगकर्ता अब ऐसे tools चाहते हैं जो तेज़ हों, वैकल्पिक रूप से private हों, और सीमित परिस्थितियों में भी उपयोगी हों। Offline-first software इन ज़रूरतों का सीधे उत्तर देता है। यदि यह दृष्टिकोण सफल होता है, तो यह फ़ोन में voice input के व्यापक उपयोग को प्रभावित कर सकता है, खासकर जैसे-जैसे उपयोगकर्ता typing के बजाय drafts बोलकर तैयार करने में अधिक सहज होते जाएंगे।

अभी के लिए Google AI Edge Eloquent एक ऐसे experiment जैसा दिखता है जिसकी commercial logic स्पष्ट है। यह परखता है कि क्या उपयोगकर्ता ऐसे dictation चाहते हैं जो केवल transcribe करने से अधिक करे, क्या hybrid local-and-cloud processing आकर्षक है, और क्या Google speech और language models में हुई प्रगति को एक व्यावहारिक रोज़मर्रा के टूल में बदल सकता है। भीड़भाड़ वाले AI app landscape में यह कई flashy consumer demos की तुलना में अधिक ठोस और संभावित रूप से अधिक टिकाऊ दांव है।

यह लेख TechCrunch की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें।

Originally published on techcrunch.com

Google ने iPhone पर ऑफलाइन-प्राथमिक AI डिक्टेशन ऐप का परीक्षण किया

Google enters a fast-moving dictation race

सिर्फ transcription नहीं

Anthropic ने IPO प्रक्रिया शुरू करने के लिए गोपनीय रूप से फाइल किया

Local mode और cloud mode एक hybrid strategy की ओर इशारा करते हैं

iPhone launch से परे संकेत

स्मार्ट टीवी पर VPN का उपयोग अब घरेलू नेटवर्क सुरक्षा का एक उपाय बन रहा है

यह रिलीज़ क्यों मायने रखती है

Comments (0)

Related Articles

Dell कम कीमत और पतले डिजाइन के साथ XPS 13 को वापस ला रहा है

Apple TV और HomePod mini के लिए पतझड़ का रिफ्रेश आ सकता है, रिपोर्ट का संकेत

बढ़ती गर्मी जानवरों के व्यवहार को गड़बड़ा रही है

Keep Reading