يبدو الذكاء الاصطناعي الصوتي طبيعيًا فقط عندما تختفي الشبكة
نشرت OpenAI نظرة نادرة على مستوى البنية التحتية حول كيفية تقديمها لذكاء اصطناعي صوتي منخفض الكمون على نطاق عالمي، موضحةً إعادة تصميم لبنية WebRTC لديها لدعم تفاعلات الكلام في الوقت الحقيقي عبر منتجات تشمل صوت ChatGPT وRealtime API وسير عمل الوكلاء الذي يحتاج إلى معالجة الصوت بينما لا يزال المستخدم يتحدث.
يمكن وصف المشكلة الهندسية بسهولة، لكن حلها صعب. فالمحادثة المنطوقة تتحمل تأخيرًا أقل بكثير من كثير من أشكال التفاعل البرمجي الأخرى. عندما يتردد النظام، أو يقاطع المستخدم، أو يستجيب ببطء شديد عند المقاطعة، يلاحظ الناس ذلك فورًا. وتطرح OpenAI التحدي ضمن ثلاثة متطلبات ملموسة: وصول عالمي لأكثر من 900 مليون مستخدم نشط أسبوعيًا، وإعداد اتصال سريع بحيث يتمكن المستخدمون من بدء الحديث بمجرد بدء الجلسة، وزمن ذهاب وإياب منخفض ومستقر للوسائط مع أقل قدر ممكن من الاهتزاز وفقدان الحزم حتى يظل تبادل الأدوار سلسًا.
تساعد هذه الأهداف على تفسير سبب تركيز أحدث أعمال الشركة أقل على سلوك النموذج وحده وأكثر على أنظمة النقل التي تجعل الصوت يبدو فوريًا. ففي منتجات الصوت، ليست ذكاء النموذج إلا جزءًا من التجربة. أما الباقي فيعتمد على مدى سرعة وموثوقية انتقال الحزم.
لماذا يهم WebRTC لمنتجات الذكاء الاصطناعي
يؤكد منشور OpenAI أن WebRTC لا يزال أساسًا عمليًا لذكاء اصطناعي صوتي من العميل إلى الخادم لأنه يوحد الأجزاء الصعبة من تقديم الوسائط التفاعلية. ويشمل ذلك إنشاء الاتصال والعبور عبر NAT باستخدام ICE، والنقل المشفر عبر DTLS وSRTP، والتفاوض على برامج الترميز، وضبط الجودة عبر RTCP، وقدرات من جانب العميل مثل إلغاء الصدى وتخزين اهتزاز الحزم.
وبالنسبة إلى شركة تعمل عبر المتصفحات وتطبيقات الهاتف المحمول وبنية الخوادم، فإن هذا التوحيد يقلل التجزؤ. وبدونه، ستحتاج كل بيئة عميل إلى حلول منفصلة للاتصال والتشفير ودعم برامج الترميز والتكيف مع الشبكة. ومن خلال الاعتماد على معيار ناضج وعلى منظومة WebRTC مفتوحة المصدر الأوسع، تقول OpenAI إنها تستطيع تركيز جهدها الهندسي على البنية التحتية التي تربط تدفقات الوسائط في الوقت الحقيقي بالنماذج، بدلًا من إعادة بناء حزمة الاتصالات كاملة من الصفر.
هذه رسالة عملية لصناعة الذكاء الاصطناعي الأوسع. فالذكاء الاصطناعي في الوقت الحقيقي لا يتعلق فقط بتوليد الصوت بسرعة، بل يتعلق أيضًا بدمج بروتوكولات الاتصالات الراسخة مع أنظمة خدمة النماذج بطريقة تحافظ على سلوك العميل المألوف بينما تغيّر ما يحدث أعمق داخل الشبكة.



