Thinking Machines Lab تطلق نموذج ذكاء اصطناعي صوتي متعدد الوسائط في الوقت الحقيقي

رهان مختلف على الذكاء الاصطناعي الصوتي

أطلقت Thinking Machines Lab، الشركة الناشئة التي أسستها كبيرة التكنولوجيا السابقة في OpenAI ميرا موراتي، نسخة بحثية أولية من نموذجها الأول وطرحتها كتحدٍ مباشر للطريقة التي تعمل بها مساعدات الصوت السائدة اليوم. ووفقًا لوصف الشركة، يعالج النظام الصوت والفيديو والنص بالتوازي في مقاطع مدتها 200 مللي ثانية، بهدف جعل المحادثة تبدو أقل شبهاً بسلسلة من الأوامر والردود وأكثر شبهاً بتبادل سلس.

هذا القرار التصميمي مهم لأن معظم منتجات الذكاء الاصطناعي الآني لا تزال تعتمد على سلسلة معالجة مرحلية. وفي الرواية المقدمة مع المادة المرشحة، تستقبل الأنظمة الحالية الصوت بشكل مستمر، لكن النموذج الأساسي لا يختبر مباشرة مجمل تيار التفاعل الحي. وبدلاً من ذلك، تقرر المكونات الخارجية متى انتهى المتحدث من كلامه، ثم تُحزم العبارة، وبعدها فقط تُسلَّم إلى النموذج لإنتاج رد كامل. وبينما يتحدث النموذج، قد تتوقف قدرته على الإدراك فعليًا ما لم تتم مقاطعته.

تقول Thinking Machines Lab إن هذه البنية تفرض حدًا داخليًا. فإذا كان على النظام أن ينتظر حدود الأدوار ويعتمد على أدوات مساعدة منخفضة المستوى لتحديد وقت الكلام، فسوف يواجه صعوبة في السلوكيات التي يتوقعها الناس في المحادثة الطبيعية. وتشمل هذه السلوكيات المقاطعة الاستباقية عند الطلب، والتحدث المتزامن عند الحاجة، والتفاعل المباشر مع السياق البصري.

لماذا ترى الشركة الناشئة أن النمط القديم لا يكفي

لا تقتصر رسالة الشركة على أنها بنت نموذجًا أسرع، بل تقدم أيضًا ادعاءً أوسع حول تصميم المنتجات في الذكاء الاصطناعي. فمن وجهة نظرها، لا ينبغي اعتبار التفاعلية مجرد طبقة رقيقة فوق نموذج عام الغرض، بل يجب أن تكون جزءًا من السلوك الأصلي للنموذج.

هذا الطرح يضع Thinking Machines Lab في موقع استراتيجي مهم داخل سوق الذكاء الاصطناعي. فقد ركزت كثير من الشركات على جعل النماذج الكبيرة أكثر قدرة في الاستدلال والبرمجة والبحث، ثم قامت بتكييفها للكلام عبر إضافة طبقات تنسيق. وتقول Thinking Machines Lab إن هذا الأسلوب ينتج أنظمة تظل محسوسة بأنها ميكانيكية، حتى عندما تبدو مصقولة.

ويذكر النص المرشح أن الشركة تقارن نهجها بمنتجات مثل GPT-Realtime-2 من OpenAI وGemini Live من Google. وادعاؤها هو أن استبدال البنية الخارجية بنموذج يعالج مباشرة تدفقات الصوت والفيديو الحية يمكن أن يحسن جودة التفاعل وزمن الاستجابة معًا. كما تقول الشركة إن نهجها يزاوج بين نموذج تفاعل سريع ونموذج استدلال يعمل في الخلفية، ما يشير إلى بنية تفصل بين الاستجابة الحوارية الفورية والحساب الأعمق.

Create, edit and star in videos with two Google Vids updates

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

توسّع Google إنشاء الفيديو بالذكاء الاصطناعي داخل Workspace عبر توليد المقاطع وتحريرها بالاعتماد على الأوامر النصية، إلى جانب صور رمزية مخصصة تُنشأ من صورة سيلفي وتسجيل صوتي.

Read article

ما الذي يفترض أن يتيحه النموذج

الأمثلة العملية الواردة في المصدر كاشفة. فقد يدعم نموذج تفاعل أكثر أصالة محادثات يطلب فيها المستخدم من المساعد أن يقاطع إذا بدا شيء ما غير صحيح، أو أن يتفاعل بينما يقوم المستخدم بشيء ما على الشاشة أو أمام الكاميرا. وقد يدعم أيضًا تداخل الكلام، وهو أمر مفيد في سياقات مثل الترجمة الحية.

تشير هذه الأمثلة إلى تحول أعمق في كيفية تطور واجهات الصوت. فعلى مدى سنوات، دربت الأنظمة الصوتية المستخدمين إلى حد كبير على الكلام في أوامر نظيفة ومحددة. وقد تعتمد المرحلة التالية على أنظمة قادرة على التعامل مع الغموض والمقاطعة والتوقيت والإشارات المتوازية بطريقة أقرب إلى ما يفعله المتعاون البشري. وإذا حدث ذلك، فلن تُحسم المنافسة في الذكاء الاصطناعي الصوتي فقط بمن يملك أكبر نموذج أساسي، بل بمن يستطيع جعل التفاعل نفسه يبدو أقل اصطناعية.

هذه هي المساحة السوقية التي تريد Thinking Machines Lab احتلالها. فبدلاً من تقديم الصوت كميزة مضافة إلى نموذج نصي قوي، تقدم التفاعل بوصفه مشكلة أساسية من الدرجة الأولى. وهذه الصياغة لافتة لأنها تتحدى أحد الافتراضات المهيمنة في تطوير منتجات الذكاء الاصطناعي حاليًا: أن مكاسب الذكاء العام ستحل تلقائيًا جودة الواجهة لاحقًا.

الوعد والضغط وما التالي

لا يزال هذا الإصدار مجرد معاينة بحثية، كما أن ظروف الشركة نفسها مهمة أيضًا. ويذكر المصدر المقدم أن عدة موظفين أساسيين غادروا الشركة الناشئة مؤخرًا. وهذا يعني أن الكشف التقني يأتي بالتوازي مع أسئلة حول التنفيذ، والموارد البشرية، وما إذا كانت الشركة قادرة على تحويل موقع بحثي قوي إلى منتج وعمل مستدامين.

ومع ذلك، فإن إطلاق أول نموذج من قبل شركات ناشئة في الذكاء الاصطناعي تحظى بمتابعة وثيقة يمكن أن يؤثر في المجال الأوسع قبل الوصول إلى النشر واسع النطاق. وإذا صمدت ادعاءات Thinking Machines Lab بشأن زمن الاستجابة وجودة التفاعل أمام التدقيق الأوسع، فقد يواجه المنافسون ضغطًا لإعادة التفكير في تصميم أنظمة الصوت على المستوى المعماري بدلًا من الاستمرار في إضافة المزيد من الأدوات حول النماذج القائمة.

هناك أيضًا دلالة صناعية أوسع. فقد كان الصوت يُطرح منذ زمن باعتباره أحد أكثر واجهات الذكاء الاصطناعي طبيعية، ومع ذلك لا يزال كثير من المستخدمين يجدون المساعدات الحالية هشّة عمليًا. وسيُقرّب نظام قادر على الإدراك والتحدث والتكيف باستمرار عبر الصوت والفيديو والنص هذه الفئة من فكرة الحوسبة الحوارية المحيطية التي وُعد بها طويلاً.

في الوقت الراهن، الخلاصة أضيق لكنها لا تزال مهمة: أحد أكثر المختبرات الناشئة مراقبة في القطاع قام بأول خطوة، وقد اختار التنافس على جودة التفاعل نفسه. في سوق مزدحم بإطلاق النماذج، هذه أطروحة مختلفة. أما ما إذا كانت ستثبت قدرتها على الاستمرار، فسيعتمد على التحقق المستقل، والتحويل إلى منتج، وقدرة الشركة الناشئة على الحفاظ على الفريق اللازم للتقدم إلى ما بعد المعاينة البحثية.

هذه المقالة تستند إلى تغطية The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

Thinking Machines Lab تكشف عن نموذج متعدد الوسائط في الوقت الحقيقي متمحور حول المحادثة

رهان مختلف على الذكاء الاصطناعي الصوتي

لماذا ترى الشركة الناشئة أن النمط القديم لا يكفي

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

ما الذي يفترض أن يتيحه النموذج

الوعد والضغط وما التالي

Comments (0)

Keep Reading