نتائج معيارية جديدة تضيق الفجوة بين سرديات أمان الذكاء الاصطناعي والأداء المقاس
تُربك اختبارات الأمن السيبراني الجديدة الصادرة عن معهد أمن الذكاء الاصطناعي في المملكة المتحدة واحدة من أكثر السرديات صخبًا في الذكاء الاصطناعي المتقدم خلال الفترة الأخيرة: فكرة أن Mythos Preview من Anthropic يمثل تهديدًا سيبرانيًا أعلى بشكل فريد. ووفقًا للنتائج الجديدة، وصل GPT-5.5 من OpenAI إلى مستوى أداء مماثل في التقييمات السيبرانية للمعهد، ما يشير إلى أن Mythos قد يكون أقل من كونه قفزة منفردة، وأكثر من كونه علامة على تقدم أوسع في النماذج.
هذا هو الاستنتاج المركزي الذي نقلته Ars Technica استنادًا إلى نتائج AISI. وتكمن أهميته في أن Anthropic كانت قد شددت سابقًا على الخطر غير المعتاد الذي يمثله Mythos Preview في الأمن السيبراني، وقيّدت إطلاقه الأولي على شركاء صناعيين أساسيين. المقارنة الجديدة لا تقول إن هذه المخاطر غير حقيقية، بل تقول إن قدرات مماثلة قد تكون تظهر بالفعل عبر نماذج رائدة أخرى مع تحسن الاستقلالية طويلة الأمد والاستدلال والبرمجة.
ما الذي قيس في الاختبارات
منذ عام 2023، أجرت AISI على أنظمة الذكاء الاصطناعي المتقدمة 95 تحديًا من نوع Capture the Flag صُممت لاختبار القدرات السيبرانية في مجالات تشمل الهندسة العكسية، واستغلال الويب، والتشفير. هذه ليست انطباعات غامضة عن كفاءة النموذج، بل تقييمات قائمة على المهام، تهدف إلى كشف مدى قدرة الأنظمة على إنجاز أعمال سيبرانية هجومية ملموسة.
في مهام مستوى “Expert” الأعلى، حقق GPT-5.5 متوسط نجاح بلغ 71.4 في المئة، متقدمًا قليلًا على Mythos Preview الذي سجل 68.6 في المئة، وذلك ضمن هامش الخطأ. هذا التوصيف مهم. فالنتيجة لا تثبت فائزًا حاسمًا، بل تؤكد تعادلًا على مستوى مرتفع بما يكفي لتحدي فكرة أن نموذجًا واحدًا فقط قد دخل فئة جديدة من المخاطر.






