OpenAI تطلق نماذج صوتية جديدة فورية للاستدلال والترجمة والنسخ

OpenAI تدفع الصوت الفوري إلى الأمام أكثر مع نماذج API جديدة للاستدلال والترجمة والنسخ المباشر

قدّمت OpenAI ثلاثة نماذج صوتية جديدة تهدف إلى تحويل واجهات الصوت إلى أنظمة فورية أكثر قدرة على الاستدلال والترجمة والنسخ أثناء حدوث المحادثات.

DT Editorial AI

May 9, 2026·2 min read·565 words

الذكاء الاصطناعي الصوتي يتجاوز الردود السريعة

أطلقت OpenAI ثلاثة نماذج صوتية جديدة في واجهة API الخاصة بها، ووصفت هذا الإصدار بأنه خطوة نحو أنظمة صوتية يمكنها فعل أكثر من مجرد الرد بسرعة. النماذج الجديدة هي GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper. وصُممت هذه النماذج مجتمعة لدعم تدفقات محادثة مباشرة يمكن للبرمجيات فيها الاستدلال على الطلبات، وترجمة الكلام أثناء حدوثه، ونسخ المتحدثين في الوقت الفعلي.

وتقول الشركة إن واجهات الصوت المفيدة تحتاج إلى أكثر من مجرد إخراج طبيعي الصوت أو تبادل منخفض التأخير للأدوار. ففي المنتجات الواقعية، يجب أن يفسر نظام الصوت النية، وأن يحتفظ بالسياق، وأن يتعافى عندما يغيّر الشخص اتجاهه، وأحيانًا أن يستخدم أدوات بينما لا تزال المحادثة تتكشف. وهذا ينقل الصوت من طبقة عرض إلى واجهة تشغيلية.

ثلاثة نماذج، وثلاث مهام مختلفة

يوصف GPT-Realtime-2 بأنه أول نموذج صوتي من OpenAI يتمتع باستدلال بمستوى GPT-5. والتركيز هنا ليس على جودة الصوت فحسب، بل على التعامل مع الطلبات الأصعب ومواصلة المحادثة بشكل طبيعي. ويُطرح النموذج لسيناريوهات الصوت إلى الفعل، حيث يصف المستخدمون حاجة بلغة عادية ويتوقعون من النظام أن يستدل على الخطوات التالية.

أما GPT-Realtime-Translate فهو مخصص للتفاعل متعدد اللغات المباشر. وتقول OpenAI إن النموذج يمكنه ترجمة الكلام من أكثر من 70 لغة إدخال إلى 13 لغة إخراج مع الحفاظ على سرعة المتحدث. وهذه النقطة مهمة لخدمات العملاء والسفر والفعاليات العالمية والتواصل في مكان العمل، حيث تعتمد قيمة الترجمة بدرجة كبيرة على السرعة واستمرارية الحوار.

يركز GPT-Realtime-Whisper على تحويل الكلام إلى نص بشكل متدفق، من خلال نسخ الكلام مباشرة بينما يتحدث المتحدث. ويُعد النسخ المباشر الموثوق طبقة أساسية للعديد من منتجات الصوت، بما في ذلك المساعدات وأنظمة الدعم وأدوات الاجتماعات وتطبيقات الوصول.

التحول الأكبر: برمجيات يمكنها الاستماع والتصرف

ما يبرز في الإعلان هو الابتعاد عن الصوت بوصفه طبقة جديدة لافتة. فـ OpenAI تضع الصوت صراحةً كواجهة بين الناس والمنتجات. وهذا يعني مستقبلًا لا تكون فيه مخاطبة البرمجيات مجرد طريقة أخرى لطرح سؤال، بل وسيلة لإنجاز العمل. وإذا أدت النماذج كما هو موصوف، فسيتمكن المطورون من بناء أنظمة تظل متجاوبة بينما تجري المهام والترجمات والنسخ بالتوازي.

لا يعني ذلك اختفاء واجهات لوحة المفاتيح والشاشة. بل يعني أن فئات أكثر من البرمجيات قد تحصل على نقطة دخول ثانية: نقطة مبنية على الكلام المستمر والسياق والفعل. ويعد إصدار النموذج الأحدث محاولة لجعل هذه الواجهة عملية بما يكفي للإطلاق.

يعتمد هذا المقال على تغطية OpenAI. اقرأ المقال الأصلي.

OpenAI تدفع الصوت الفوري إلى الأمام أكثر مع نماذج API جديدة للاستدلال والترجمة والنسخ المباشر

الذكاء الاصطناعي الصوتي يتجاوز الردود السريعة

ثلاثة نماذج، وثلاث مهام مختلفة

Keep Reading

OpenAI تفتح GPT-5.5-Cyber أمام المدافعين المعتمدين مع تشديد سياسة أمن الذكاء الاصطناعي

لماذا يهتم المطورون بهذه الفئة

ضغط تنافسي في الذكاء الاصطناعي الفوري

هوس تمويل الذكاء الاصطناعي يشتد مع سعي Deepseek وCore Automation إلى رهانات أكبر

التحول الأكبر: برمجيات يمكنها الاستماع والتصرف

Comments (0)