OpenAI تطلق مكافأة أخطاء بيولوجية لـ GPT-5.5 بحثًا عن jailbreak شامل

مكافأة أخطاء تستهدف مخاطر البيولوجيا

فتحت OpenAI باب التقديم لبرنامج GPT-5.5 Bio Bug Bounty جديد، وهو برنامج red teaming موجّه يركّز على ما إذا كان الباحثون قادرين على اكتشاف jailbreak شامل يتجاوز الضمانات المرتبطة بالبيولوجيا لدى الشركة. والبنية هنا محددة على نحو غير معتاد. يُطلب من المشاركين تقديم prompt واحد يمكنه الإجابة بنجاح عن الأسئلة الخمسة كلها في اختبار السلامة البيولوجية الخاص بـ OpenAI من محادثة جديدة دون تفعيل المراجعة. وتبلغ الجائزة الكبرى 25,000 دولار لأول jailbreak شامل حقيقي ينجح في اجتياز الأسئلة الخمسة جميعًا.

وبحسب النص المصدر المرفق، ينطبق البرنامج على GPT-5.5 في Codex Desktop فقط. فُتحت الطلبات في 23 أبريل 2026، مع قبول متواصل حتى 22 يونيو 2026. ومن المقرر أن تبدأ الاختبارات في 28 أبريل وتستمر حتى 27 يوليو. وتقول OpenAI إنه قد تُمنح جوائز أصغر للنجاحات الجزئية وفقًا لتقديرها.

وهذا مهم لأنه يبيّن أن شركة ذكاء اصطناعي حدودية تتعامل مع إساءة الاستخدام البيولوجية ليس فقط باعتبارها مسألة سياسة، بل بوصفها مشكلة ملموسة لتقوية النظام. فبدلاً من تأطير تقييم السلامة عبر المراجعة الداخلية أو لغة السياسات العامة فقط، تدعو الشركة متخصصين خارجيين لمهاجمة نمط فشل محدد بدقة.

لماذا يهم jailbreak شامل

معظم حالات فشل السلامة القائمة على prompts تكون ظرفية. فقد يقاوم النموذج صياغة معينة، لكنه يفشل تحت صياغة أخرى. أما jailbreak الشامل فمختلف لأنه يشير إلى ضعف أعمّ في منظومة السلامة. وإذا كان prompt واحد قابل لإعادة الاستخدام يستطيع تجاوز السلوك الوقائي عبر عدة prompts خطيرة من محادثة جديدة، فإن ذلك يرفع خطورة الثغرة بشكل كبير.

إن اختيار OpenAI التركيز على اختبار السلامة البيولوجية المؤلف من خمسة أسئلة يوحي بنهج قائم على العتبة: فالشركة أقل اهتمامًا بالحالات الحدّية المعزولة، وأكثر اهتمامًا بالإخفاقات المنهجية التي من شأنها تقويض الثقة في دفاعات النموذج البيولوجية. ومن خلال مكافأة طريقة شاملة بدلًا من أمثلة متفرقة، فهي تطلب من فرق red team فحص سلامة طبقة المحاذاة ككل.

كما أن حجم الجائزة يشير إلى الأولوية. فمبلغ 25,000 دولار متواضع مقارنة بحجم برامج الثغرات البرمجية الكبرى، لكنه كبير بما يكفي لجذب متخصصين موثوقين في أمن الذكاء الاصطناعي والأمن البيولوجي. والأهم أنه يوضح أن OpenAI مستعدة للدفع مقابل دليل على إمكانية كسر ضماناتها في ظروف مضبوطة قبل أن تُستغل هذه الثغرات في أماكن أخرى.

Create, edit and star in videos with two Google Vids updates

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

توسّع Google إنشاء الفيديو بالذكاء الاصطناعي داخل Workspace عبر توليد المقاطع وتحريرها بالاعتماد على الأوامر النصية، إلى جانب صور رمزية مخصصة تُنشأ من صورة سيلفي وتسجيل صوتي.

Read article

عملية انتقائية عالية الثقة

البرنامج ليس مفتوحًا بالكامل. ووفقًا للنص المصدر، ستدعو OpenAI قائمة مُدققة من مختبري red team الموثوقين في المجال البيولوجي، وستراجع الطلبات الجديدة من الباحثين ذوي الخبرة في red teaming للذكاء الاصطناعي أو الأمن أو الأمن البيولوجي. ويجب على المشاركين والمتعاونين المقبولين امتلاك حسابات ChatGPT قائمة وتوقيع اتفاقية عدم إفصاح. وتشمل الـ NDA جميع الـ prompts والردود والنتائج والمراسلات.

يعكس هذا التصميم ذو الوصول المقيّد حساسية الموضوع. فبحث إساءة الاستخدام المرتبط بالبيولوجيا يحتل موقعًا غير معتاد: إذ تحتاج الأنظمة إلى اختبار ضغط، لكن النشر الواسع لأساليب هجومية قد يخلق خطرًا إضافيًا. ويشير شرط الـ NDA إلى أن OpenAI تحاول الموازنة بين التدقيق الخارجي والاحتواء التشغيلي.

كما يبرز هذا الإعداد تحولًا أوسع في حوكمة الذكاء الاصطناعي الحدودي. إذ تُدار مجالات القدرات عالية الخطورة بصورة متزايدة عبر نماذج وصول موثوق بدلًا من المسابقات المفتوحة بالكامل. وهذا النهج يحد من الرؤية الخارجية، لكنه قد يسمح أيضًا باختبارات هجومية أكثر واقعية مما يسمح به تحدٍ عام بالكامل.

ما الذي يقوله البرنامج عن أمان النماذج الحدودية

يأتي GPT-5.5 Bio Bug Bounty في وقت تتجه فيه شركات الذكاء الاصطناعي نحو تحقق أكثر تخصصًا من السلامة للنظم المتقدمة. ولا يزال red teaming العام مهمًا، لكن المجالات الأعلى خطورة تتطلب بشكل متزايد خبرة متخصصة في المجال. والبيولوجيا حالة مهمة بشكل خاص لأن الخط الفاصل بين المساعدة العلمية المشروعة والمعلومات التي قد تكون خطيرة يصعب ضبطه على نطاق واسع.

ومن خلال تضييق التحدي إلى jailbreaks شاملة، تسأل OpenAI فعليًا سؤالًا صعبًا عن المتانة: هل تستطيع ضماناتها الصمود أمام خصم مصمم وخبير يستخدم أساليب قائمة على prompts فقط؟ هذا أكثر تطلبًا من سؤال ما إذا كان المستخدم العادي قد يربك النموذج أحيانًا. إنه اختبار لمعرفة ما إذا كانت الدفاعات تفشل بطريقة قابلة للتكرار والتوسع.

وتشير صياغة الشركة أيضًا إلى أن هذا البرنامج جزء من بنية أوسع من مكافآت الأخطاء وأعمال السلامة. فالنص المصدر يوجّه المشاركين إلى برامج مكافآت السلامة والأمن المنفصلة لدى OpenAI، ما يدل على نموذج تقييم متعدد الطبقات لا على تجربة لمرة واحدة.

حدود ما تكشفه هذه المبادرة

في الوقت نفسه، يترك الإعلان بعض الأمور غير واضحة عن قصد. فبسبب خضوع التحدي لـ NDA، لن يرى المراقبون الخارجيون تلقائيًا الـ prompts التي جرى اختبارها أو الردود الناتجة أو الطبيعة الدقيقة لأي jailbreak ناجح. وهذا يقلل الشفافية، رغم أنه قد يكون غير قابل للتجنب في مجال قد يؤدي فيه النشر نفسه إلى خطر.

كما أن التركيز على Codex Desktop يضيّق النطاق. فالوضع الأمني لنموذج ما قد يختلف بحسب المنتج والواجهة وقيود النشر. ولا يعني النجاح أو الفشل في بيئة واحدة بالضرورة الشيء نفسه في كل البيئات. ومع ذلك، كما يوضح النص المصدر، فإن الشركة تضع ضمانات السلامة البيولوجية في GPT-5.5 تحت ضغط هجومي صريح في سياق منتج حقيقي واحد على الأقل.

تحول عملي في أمان الذكاء الاصطناعي

تكمن الأهمية الأكبر لهذه المكافأة في أنها تتعامل مع أمان النموذج بوصفه شيئًا يجب اختباره تشغيليًا، لا مجرد وصفه في بطاقات النظام أو بيانات السياسات. وبهذا المعنى، فالمبادرة أقل تعلقًا بتسويق ضمانة وأكثر تعلقًا بدعوة محاولات خبراء لكسرها ضمن قواعد ضيقة بما يكفي لتكون ذات معنى.

أما ما إذا كانت دفاعات OpenAI ستصمد، فذلك سؤال آخر. لكن الواضح بالفعل أن الشركة ترى إساءة الاستخدام المرتبطة بالبيولوجيا مهمة بما يكفي لتستحق هجومًا خارجيًا مدفوعًا وموجّهًا. وهذا تطور لافت بحد ذاته. ومع ازدياد قدرات أنظمة الذكاء الاصطناعي الحدودية، ستعتمد مصداقية ادعاءات السلامة بصورة متزايدة على برامج اختبار هجومية مثل هذا البرنامج، حيث لا يكون المعيار هو وجود سياسة، بل ما إذا كانت تصمد عند الاحتكاك بأشخاص يحاولون هزيمتها.

هذه المقالة مستندة إلى تقارير من OpenAI. اقرأ المقال الأصلي.

Originally published on openai.com

OpenAI تضع ضمانات السلامة البيولوجية في GPT-5.5 تحت اختبار ضغط مباشر عبر مكافأة أخطاء جديدة