OpenAI تطلق ميزات صوت وترجمة ونسخ في الوقت الفعلي عبر واجهتها البرمجية

تضيف OpenAI أدوات الصوت والترجمة والنصوص في الوقت الفعلي إلى واجهتها البرمجية

تقول OpenAI إن المطورين بات بإمكانهم الآن بناء تطبيقات تتحدث وتترجم وتحوّل الكلام إلى نص في الوقت الفعلي عبر ميزات جديدة لذكاء الصوت في واجهة برمجتها.

DT Editorial AI

May 8, 2026·3 min read·668 words

OpenAI تتقدم أكثر نحو واجهات الصوت في الوقت الفعلي

أضافت OpenAI مجموعة جديدة من ميزات ذكاء الصوت إلى واجهة برمجتها، ما يوسع ما يمكن للمطورين فعله باستخدام الصوت المباشر في المنتجات البرمجية. وتقول الشركة إن الأدوات الجديدة مصممة لمساعدة التطبيقات على التحدث مع المستخدمين، وتحويل الكلام إلى نص، وترجمة المحادثات أثناء حدوثها.

يتضمن الإصدار ثلاث قدرات رئيسية: GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper. وتمثل هذه القدرات مجتمعة جهدا أوسع للتجاوز عن مجرد إدخال وإخراج الصوت نحو أنظمة يمكنها الإصغاء والاستدلال والترجمة والاستجابة ضمن تدفق محادثة حية.

ما الجديد

يُعرض النموذج الأول، GPT-Realtime-2، بوصفه نموذجا صوتيا مطورا للتفاعل الصوتي الواقعي. وتقول OpenAI إنه يختلف عن GPT-Realtime-1.5 السابق لأنه مبني على استدلال من فئة GPT-5، والمقصود منه التعامل مع طلبات المستخدم الأكثر تعقيدا. وهذا يشير إلى توجه لجعل أنظمة الصوت أكثر قدرة في الحالات التي لا تكون فيها المحادثة مجرد سلسلة من الأوامر القصيرة، بل تبادلا يتطلب مزيدا من السياق واتخاذ القرار.

الإطلاق الثاني، GPT-Realtime-Translate، مخصص للترجمة المباشرة. وتقول OpenAI إنه يمكنه تقديم ترجمة في الوقت الفعلي تواكب المتحدث في بيئة محادثة. ووفقا للنص المصدر المقدم، فهو يدعم أكثر من 70 لغة إدخال و13 لغة إخراج.

الأداة الثالثة، GPT-Realtime-Whisper، تركز على تحويل الكلام إلى نص بشكل مباشر. وتقول OpenAI إنها تلتقط التفاعلات المنطوقة فور حدوثها، ما يمنح المطورين وسيلة لدمج النسخ الفوري في تطبيقاتهم.

News

تكشف سلسلة جرى معالجتها حديثًا من أرشيف صور أرتيميس 2 التابع لناسا عن البرق والشفق وأجسام تبدو كأقمار صناعية في منظر الأرض الأيقوني الملتقط من أوريون.

DT Editorial AI·May 8, 2026·via arstechnica.com

لماذا يهم هذا المطورين

كان الصوت في الوقت الفعلي تحديا تقنيا ومنتجيا كبيرا لمطوري الذكاء الاصطناعي، لأن أنظمة الصوت المفيدة يجب أن تفعل أكثر من مجرد التعرف على الكلمات. فهي بحاجة إلى إدارة زمن الاستجابة، والحفاظ على ترابط المحادثة، والرد بطريقة طبيعية بما يكفي لإبقاء المستخدمين في الحديث. ومن خلال تجميع الاستدلال والترجمة والنسخ داخل منتجات الواجهة البرمجية، تحاول OpenAI جعل هذه الحزمة أسهل في الوصول.

ووصف الشركة نفسه للإصدار يكشف الكثير. فقد قالت OpenAI إن النماذج تنقل الصوت في الوقت الفعلي من مجرد أسلوب سؤال وجواب إلى واجهات صوتية يمكنها إنجاز العمل أثناء تطور المحادثة. وهذا تمييز مهم. فمساعد صوتي يكتفي بالرد شيء، أما نظام يمكنه الإصغاء والتفسير والترجمة والنسخ وربما اتخاذ إجراء داخل التفاعل نفسه فهو مكون منصات أكثر طموحا.

خدمة العملاء هي الاستخدام الأقرب والأوضح على المدى القريب، وتشير OpenAI صراحة إلى هذه الفئة. لكن الشركة تقول أيضا إن الأدوات قد تكون مفيدة في التعليم والإعلام والفعاليات ومنصات صانعي المحتوى. وتوحي هذه الأمثلة بسوق لا يقتصر على المساعدين الصوتيين، بل يشمل أيضا سير العمل الحي متعدد اللغات والتطبيقات الحوارية التي تحتاج إلى طبقة نسخ أو ترجمة مستمرة.

تضيف OpenAI أدوات الصوت والترجمة والنصوص في الوقت الفعلي إلى واجهتها البرمجية

OpenAI تتقدم أكثر نحو واجهات الصوت في الوقت الفعلي

ما الجديد

Related Articles

Keep Reading

الادعاء الفرنسي يصعّد التحقيق مع ماسك وX وxAI

لماذا يهم هذا المطورين

التوتر بين المنتج والسياسة

Lime تتقدم لطرح عام أولي مع نمو من جهة وضغط ديون من جهة أخرى

تحول أوسع في واجهات الذكاء الاصطناعي

Comments (0)

تضيف سلسلة صور أرتيميس 2 الجديدة تفاصيل من البرق والشفق وغازات غموض بشأن قمر صناعي إلى منظر «Hello, World» التابع لناسا