OpenAI تقول إن WebSockets جعلت تدفقات عمل API الوكيلة أسرع بنحو 40%

تقول OpenAI إن جلسات WebSocket المستمرة خفّضت زمن استجابة حلقات الوكلاء بنحو 40%

تقول OpenAI إن إعادة تصميم حلقة الوكلاء في Responses API، والمتمحورة حول اتصالات WebSocket المستمرة والتخزين المؤقت المرتبط بالاتصال، خفّضت زمن الاستجابة من البداية إلى النهاية بنحو 40% مع الارتفاع الحاد في سرعات استدلال النموذج.

DT Editorial AI

Apr 26, 2026·3 min read·750 words

لماذا تهم حلقات الوكلاء الأسرع

تقول OpenAI إنها أعادت بناء البنية التحتية خلف Responses API لجعل سير العمل بنمط الوكيل أسرع بشكل ملحوظ، في خطوة تهدف إلى تقليل الوقت الذي يقضيه المستخدمون في الانتظار بينما تتبادل الأدوات والنماذج وطلبات API الرسائل ذهاباً وإياباً أثناء المهام المعقدة.

في منشور تقني نُشر في 22 أبريل، وصفت الشركة كيف يمكن لأنظمة مثل Codex أن تحتاج إلى عشرات الطلبات المتسلسلة لإكمال مهمة واحدة: يقرر النموذج ما الذي يجب فعله بعد ذلك، وتعمل أداة على جانب العميل، ثم يُرسل الناتج إلى API، وتُكرَّر الدورة. هذا النمط يجعل حتى الكميات الصغيرة من الحمل الزائد تتراكم بسرعة.

وبحسب OpenAI، أصبح مشكلة الأداء أكثر وضوحاً مع تسارع الاستدلال نفسه. وقالت الشركة إن النماذج الرائدة السابقة في Responses API كانت تعمل بمعدل نحو 65 رمزاً في الثانية. أما بالنسبة إلى GPT-5.3-Codex-Spark، فقد استهدفت OpenAI أكثر من 1,000 رمز في الثانية باستخدام عتاد Cerebras. وبمجرد أن أصبحت عملية توليد النموذج بهذه السرعة، لم يعد من السهل إخفاء الأجزاء الأبطأ من الحلقة.

من عنق زجاجة الاستدلال إلى عنق زجاجة API

تقسّم OpenAI زمن استجابة الوكيل إلى ثلاث مراحل واسعة: عمل خدمة API، واستدلال النموذج، ووقت جانب العميل. ولا يزال جانب العميل مهماً لأن الأدوات تحتاج إلى التنفيذ ويجب تجميع السياق، لكن الشركة قالت إن طبقة API نفسها أصبحت عنق زجاجة ذا أثر ملموس.

هذا التحول فرض استراتيجية تحسين مختلفة. فبدلاً من التركيز فقط على إنتاجية GPU، تقول OpenAI إنها بدأت إزالة الاحتكاك عبر مسار الطلب. وحول نوفمبر 2025، أطلقت الشركة ما وصفته بسباق أداء على Responses API. وشمل العمل تخزين الرموز المولَّدة وإعدادات النموذج في الذاكرة المؤقتة، وتقليل القفزات الشبكية الإضافية عبر استدعاء خدمات الاستدلال بشكل أكثر مباشرة، وتسريع أجزاء من طبقة الأمان حتى يمكن تصنيف بعض المحادثات بسرعة أكبر.

ووفقاً للشركة، حسّنت تلك التغييرات زمن الوصول إلى أول رمز بنحو 45%. لكن OpenAI تقول إن ذلك لم يكن كافياً بعد لإظهار مكاسب السرعة التي توفرها بنية الاستدلال الأحدث بالكامل.

الانتقال إلى WebSocket

كان التغيير الأكبر معمارياً: استبدال سلسلة من طلبات API المتزامنة المنفصلة باتصال مستمر مع Responses API باستخدام WebSockets. عملياً، يعني ذلك أن العميل وAPI يمكنهما البقاء متصلين عبر حلقة الوكيل كاملة بدلاً من تفكيك حالة الطلب وإعادة بنائها باستمرار.

تقول OpenAI إن الجلسات المستمرة سمحت لها بإبقاء معلومات مفيدة مرتبطة بالاتصال نفسه. وقد قلّل ذلك من أعمال الإعداد المتكررة وساعد النظام على إعادة استخدام السياق بكفاءة أكبر عبر الجولات. وذكرت الشركة أن النتيجة كانت تحسناً بنحو 40% في سرعة حلقة الوكيل من البداية إلى النهاية.

بالنسبة إلى المستخدمين، فإن الدلالة واضحة. إذا كان وكيل برمجة أو بحث يحتاج إلى العديد من استدعاءات الأدوات لإنهاء مهمة، فإن تقليص الحمل الزائد في كل دورة يمكن أن يكون تأثيره أكبر من تسريع مرحلة واحدة فقط. ويمكن لسير عمل كان يبدو متوقفاً بين الخطوات أن يبدأ في الشعور بأنه أقرب إلى تفاعل مباشر.

تقول OpenAI إن جلسات WebSocket المستمرة خفّضت زمن استجابة حلقات الوكلاء بنحو 40%

لماذا تهم حلقات الوكلاء الأسرع

من عنق زجاجة الاستدلال إلى عنق زجاجة API

Keep Reading

تطلق OpenAI نموذجًا محليًا أولًا لإزالة بيانات التعريف الشخصية يستهدف سير عمل الذكاء الاصطناعي الافتراضي الخصوصية

الانتقال إلى WebSocket

ما الذي حسّنته OpenAI

تطرح OpenAI Workspace Agents باعتبارها الطبقة التالية من الذكاء الاصطناعي المؤسسي اليومي

لماذا يهم ذلك خارج Codex

الإشارة الأعمق

صفقة Cohere مع Aleph Alpha تجعل الذكاء الاصطناعي السيادي استراتيجية عابرة للحدود

Comments (0)