الذكاء الاصطناعي الصوتي يتجاوز الردود السريعة
أطلقت OpenAI ثلاثة نماذج صوتية جديدة في واجهة API الخاصة بها، ووصفت هذا الإصدار بأنه خطوة نحو أنظمة صوتية يمكنها فعل أكثر من مجرد الرد بسرعة. النماذج الجديدة هي GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper. وصُممت هذه النماذج مجتمعة لدعم تدفقات محادثة مباشرة يمكن للبرمجيات فيها الاستدلال على الطلبات، وترجمة الكلام أثناء حدوثه، ونسخ المتحدثين في الوقت الفعلي.
وتقول الشركة إن واجهات الصوت المفيدة تحتاج إلى أكثر من مجرد إخراج طبيعي الصوت أو تبادل منخفض التأخير للأدوار. ففي المنتجات الواقعية، يجب أن يفسر نظام الصوت النية، وأن يحتفظ بالسياق، وأن يتعافى عندما يغيّر الشخص اتجاهه، وأحيانًا أن يستخدم أدوات بينما لا تزال المحادثة تتكشف. وهذا ينقل الصوت من طبقة عرض إلى واجهة تشغيلية.
ثلاثة نماذج، وثلاث مهام مختلفة
يوصف GPT-Realtime-2 بأنه أول نموذج صوتي من OpenAI يتمتع باستدلال بمستوى GPT-5. والتركيز هنا ليس على جودة الصوت فحسب، بل على التعامل مع الطلبات الأصعب ومواصلة المحادثة بشكل طبيعي. ويُطرح النموذج لسيناريوهات الصوت إلى الفعل، حيث يصف المستخدمون حاجة بلغة عادية ويتوقعون من النظام أن يستدل على الخطوات التالية.
أما GPT-Realtime-Translate فهو مخصص للتفاعل متعدد اللغات المباشر. وتقول OpenAI إن النموذج يمكنه ترجمة الكلام من أكثر من 70 لغة إدخال إلى 13 لغة إخراج مع الحفاظ على سرعة المتحدث. وهذه النقطة مهمة لخدمات العملاء والسفر والفعاليات العالمية والتواصل في مكان العمل، حيث تعتمد قيمة الترجمة بدرجة كبيرة على السرعة واستمرارية الحوار.
يركز GPT-Realtime-Whisper على تحويل الكلام إلى نص بشكل متدفق، من خلال نسخ الكلام مباشرة بينما يتحدث المتحدث. ويُعد النسخ المباشر الموثوق طبقة أساسية للعديد من منتجات الصوت، بما في ذلك المساعدات وأنظمة الدعم وأدوات الاجتماعات وتطبيقات الوصول.


