OpenAI تتقدم أكثر نحو واجهات الصوت في الوقت الفعلي

أضافت OpenAI مجموعة جديدة من ميزات ذكاء الصوت إلى واجهة برمجتها، ما يوسع ما يمكن للمطورين فعله باستخدام الصوت المباشر في المنتجات البرمجية. وتقول الشركة إن الأدوات الجديدة مصممة لمساعدة التطبيقات على التحدث مع المستخدمين، وتحويل الكلام إلى نص، وترجمة المحادثات أثناء حدوثها.

يتضمن الإصدار ثلاث قدرات رئيسية: GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper. وتمثل هذه القدرات مجتمعة جهدا أوسع للتجاوز عن مجرد إدخال وإخراج الصوت نحو أنظمة يمكنها الإصغاء والاستدلال والترجمة والاستجابة ضمن تدفق محادثة حية.

ما الجديد

يُعرض النموذج الأول، GPT-Realtime-2، بوصفه نموذجا صوتيا مطورا للتفاعل الصوتي الواقعي. وتقول OpenAI إنه يختلف عن GPT-Realtime-1.5 السابق لأنه مبني على استدلال من فئة GPT-5، والمقصود منه التعامل مع طلبات المستخدم الأكثر تعقيدا. وهذا يشير إلى توجه لجعل أنظمة الصوت أكثر قدرة في الحالات التي لا تكون فيها المحادثة مجرد سلسلة من الأوامر القصيرة، بل تبادلا يتطلب مزيدا من السياق واتخاذ القرار.

الإطلاق الثاني، GPT-Realtime-Translate، مخصص للترجمة المباشرة. وتقول OpenAI إنه يمكنه تقديم ترجمة في الوقت الفعلي تواكب المتحدث في بيئة محادثة. ووفقا للنص المصدر المقدم، فهو يدعم أكثر من 70 لغة إدخال و13 لغة إخراج.

الأداة الثالثة، GPT-Realtime-Whisper، تركز على تحويل الكلام إلى نص بشكل مباشر. وتقول OpenAI إنها تلتقط التفاعلات المنطوقة فور حدوثها، ما يمنح المطورين وسيلة لدمج النسخ الفوري في تطبيقاتهم.