Google enters a fast-moving dictation race
أطلقت Google بهدوء تطبيق iPhone جديدًا باسم Google AI Edge Eloquent، وهو أداة إملاء تجريبية تركز على المعالجة المحلية وتنظيف النص المنطوق بمساعدة الذكاء الاصطناعي. ويضع هذا الإصدار Google في مواجهة مباشرة مع مجال متنامٍ من منتجات تحويل الصوت إلى نص مثل Wispr Flow وSuperWhisper وWillow، والتي تحاول جميعها تحويل التعرف الخام على الكلام إلى كتابة مصقولة.
التوقيت مهم لأن واجهات الصوت تتحسن بسرعة. ومع ازدياد دقة نماذج التعرف التلقائي على الكلام وصغر النماذج التي تصبح عملية على أجهزة المستهلكين، يتحول السوق من النسخ الحرفي البسيط إلى أدوات قادرة على إعادة صياغة اللغة المنطوقة إلى نثر أوضح وأكثر قابلية للاستخدام. ويبدو أن تطبيق Google الجديد مصمم تحديدًا لهذا التحول.
وبحسب النص المصدر المرفق، فالتطبيق مجاني على iOS ويستخدم نماذج التعرف التلقائي على الكلام المعتمدة على Gemma بعد تنزيله إلى الجهاز. وهذا يعني أن الإملاء الأساسي يمكن أن يعمل محليًا بدلًا من الاعتماد الكامل على اتصال بالسحابة. وفي وقت تميل فيه منتجات الذكاء الاصطناعي غالبًا افتراضيًا إلى المعالجة على الخوادم، يبرز التصميم الذي يضع العمل دون اتصال أولًا بوصفه ميزة للخصوصية وميزة للموثوقية للمستخدمين الذين يريدون أن تعمل أدوات الصوت في مزيد من الحالات.
أكثر من مجرد نسخ
لا يُطرح المنتج بوصفه مسجلاً بسيطًا يحول الكلام إلى نص حرفيًا. بل يهدف إلى سد الفجوة بين الكلام الطبيعي والكتابة الجاهزة للاستخدام. يعرض التطبيق نصًا مباشرًا أثناء تحدث المستخدم، ثم يجري مرحلة ثانية من التنظيف عندما تتوقف الجلسة. ويقول الوصف المرفق إنه يستطيع إزالة كلمات الحشو مثل “um” و“ah” وتنعيم التراجعات الذاتية لإنتاج مخرجات أنظف.
هذا الاختيار التصميمي مهم لأن اللغة المنطوقة واللغة المكتوبة ليستا الشيء نفسه. يتوقف الناس ويعيدون بدء الأفكار وينحرفون في منتصف الجملة بطرق تبدو ركيكة على الصفحة حتى عندما يكون المعنى المقصود واضحًا. وتتنافس منتجات الإملاء بالذكاء الاصطناعي الآن على مدى قدرتها على استنتاج القصد من دون الإفراط في تحرير معنى المستخدم. ويبدو أن Google تتعامل مع هذه الطبقة التحريرية على أنها ميزة أساسية وليست إضافة جانبية.
ويشمل التطبيق أيضًا خيارات تحويل تحمل أسماء “Key points” و“Formal” و“Short” و“Long”، وفقًا للتقرير المصدر. وتشير هذه الضوابط إلى أن Google تمزج بين النسخ الحرفي وتوليد النص الخفيف. وبدلًا من التوقف عند الالتقاط الدقيق، يمكن للتطبيق إعادة تشكيل المخرجات لسيناريوهات مختلفة، سواء أراد المستخدم ملخصًا أو نبرة أكثر رسمية أو نسخة أقصر.
يشير الوضع المحلي ووضع السحابة إلى استراتيجية هجينة
من أبرز تفاصيل المنتج أنه يمكن إيقاف المعالجة السحابية. وعندما يكون وضع السحابة مفعّلًا، يستخدم التطبيق نماذج Gemini لتنظيف النص. وعندما يكون معطلاً، تبقى التجربة محلية بالكامل. وهذا يخلق بنية هجينة: تتولى النماذج على الجهاز سير عمل الإملاء الأساسي، بينما يمكن إضافة السحابة لمزيد من المعالجة عندما يرغب المستخدم في ذلك.
هذه استراتيجية عملية للمنتج. فالمعالجة المحلية تقلل زمن الاستجابة، وتُبقي التطبيق عاملًا دون اتصال، وقد تجذب المستخدمين الحذرين من إرسال الصوت أو المسودات إلى خوادم بعيدة. وفي المقابل، تتيح المعالجة السحابية تنظيفًا للنص أكثر قدرة عندما يتوفر الاتصال. وبدلًا من إجبار المستخدمين على الاختيار بين مساعد محلي بالكامل أو سحابي بالكامل، تختبر Google ما إذا كان الوضعان يمكن أن يتعايشا في أداة كتابة واحدة.
يمكن للتطبيق أيضًا استيراد بعض الكلمات المفتاحية والأسماء والمصطلحات من حساب Gmail الخاص بالمستخدم إذا وافق على ذلك. كما يتيح إضافة كلمات مخصصة يدويًا. وهذا مهم لأن جودة الإملاء كثيرًا ما تتعثر أمام الأسماء الخاصة والمصطلحات المتخصصة والمفردات الشخصية. ويمكن للقواميس المخصصة أن تحسن الفائدة بشكل ملموس، خاصة في بيئات العمل حيث يذكر الناس بانتظام أسماء المنتجات ومصطلحات الشركات أو اللغة التقنية التي قد تفوتها النماذج العامة.
إشارات تتجاوز إطلاق iPhone
على الرغم من أن التطبيق متاح الآن على iOS، تشير النصوص المصدر إلى أن وصف App Store ذكر تكامل Android، بما في ذلك إمكانية استخدام الأداة كلوحة مفاتيح افتراضية عبر حقول النص والوصول إلى النسخ عبر زر عائم. ثم أزال تحديث استند إليه المصدر لاحقًا الإشارات إلى تطبيق Android، مع إضافة أن لوحة مفاتيح iOS قادمة قريبًا.
يوحي هذا التسلسل بأن الإصدار لا يزال في مرحلة مبكرة ومتغيرة إلى حد ما. لكنه يلمح أيضًا إلى طموح أكبر من مجرد تطبيق مستقل على iPhone. فالوصول إلى لوحة المفاتيح على مستوى النظام سيجعل المنتج أكثر أهمية استراتيجيًا، لأن الإملاء لن يقتصر على واجهة واحدة. ويمكن أن يصبح طبقةً عبر المراسلة وتدوين الملاحظات والبريد الإلكتروني وسير العمل الخاص بالمستندات.
إذا نقلت Google هذا المفهوم أعمق إلى Android في النهاية، فقد تستفيد من مزايا منصة يصعب على المنافسين الأصغر مجاراتها. إن دمجه في لوحة المفاتيح الافتراضية أو نظام التشغيل الأوسع سيمنح Google مسار توزيع يتجاوز بكثير تطبيقًا تجريبيًا واحدًا. وحتى لو بقي Eloquent مجرد منصة اختبار، فقد تغذي الميزات التي تُجرّب داخله ميزات النسخ والصوت المستقبلية عبر منظومة Google المحمولة.
لماذا يهم هذا الإصدار
أهم خلاصة ليست أن Google أطلقت تطبيق ذكاء اصطناعي آخر، بل إنها تختبر فئة منتج تقع بين التعرف على الكلام والمساعدة التحريرية والإنتاجية الشخصية. وقد أصبحت هذه الفئة أكثر قابلية للحياة مع تحسن النماذج الأصغر، وهي تتماشى مع توجه أوسع في الصناعة لجعل أدوات الذكاء الاصطناعي تبدو أقل شبهاً بالدردشة وأكثر شبهاً بأدوات سير عمل غير مرئية.
يعكس تطبيق Google أيضًا تحولًا أوسع في تصميم منتجات الذكاء الاصطناعي. فالمستخدمون يريدون بشكل متزايد أدوات سريعة، وخاصة عند الحاجة، ومفيدة في البيئات المقيدة. وتلبي البرمجيات التي تضع العمل دون اتصال أولًا هذه الاحتياجات مباشرة. وإذا نجح هذا النهج، فقد يؤثر في كيفية دمج الإدخال الصوتي في الهواتف على نطاق أوسع، خاصة مع تزايد راحة المستخدمين في إملاء المسودات بدلًا من كتابتها.
حتى الآن، يبدو Google AI Edge Eloquent تجربة ذات منطق تجاري واضح. فهو يختبر ما إذا كان المستخدمون يريدون إملاءً يفعل أكثر من مجرد النسخ، وما إذا كانت المعالجة الهجينة بين المحلي والسحابي جذابة، وما إذا كانت Google قادرة على تحويل التقدم في نماذج الكلام واللغة إلى أداة عملية للاستخدام اليومي. وفي مشهد تطبيقات الذكاء الاصطناعي المزدحم، يعد ذلك رهانًا أكثر واقعية وربما أكثر استدامة من كثير من العروض الاستهلاكية البراقة.
يعتمد هذا المقال على تغطية TechCrunch. اقرأ المقال الأصلي.




