قياس حدود أكثر خطورة للقدرات
قدّم باحثون في جامعة كارنيغي ميلون معيارًا جديدًا مصممًا لاختبار مدى قدرة وكلاء الذكاء الاصطناعي على استغلال الثغرات الواقعية في محرك JavaScript V8 من Google. ووفقًا للنص المصدر المقدم من The Decoder، فإن النتيجة ترسم صورة أكثر وضوحًا لسلوك النماذج الرائدة في الأمن الهجومي: لم تعد بعض الأنظمة تقتصر على اكتشاف الأخطاء أو التسبب في الأعطال، بل باتت تتقدم نحو تنفيذ التعليمات البرمجية بالكامل.
تكمن أهمية هذا المعيار في أنه يقيس الأداء على مراحل، بدلًا من اختزال النتائج إلى اختبار نجاح أو فشل بسيط. وكما ورد في المصدر، يمنح الإطار درجات للوكلاء عبر خمسة مستويات، تنتهي عند تنفيذ تعليمات برمجية عشوائية على النظام المستهدف. ويوفر هذا البناء رؤية أكثر واقعية لما يمكن أن ينجزه نموذج مستقل أو شبه مستقل فعليًا أثناء سير عمل تطوير الاستغلال.
Claude Mythos يتصدر وGPT-5.5 يتأخر
النتيجة الأبرز المعلنة هي وجود فجوة كبيرة بين النظامين المتصدرين في الاختبار. فقد حقق Claude Mythos Preview من Anthropic، مع دفعات بشرية متقطعة، متوسطًا بلغ 9.90 من 16، ووصل إلى المستوى الأعلى في 21 من أصل 41 ثغرة. أما GPT-5.5 من OpenAI فسجل 5.51 ووصل إلى المستوى الأعلى في ثغرتين فقط من تلك الثغرات.
وظلت الفجوة واسعة في الوضع المستقل بالكامل. فقد سجل Mythos 9.55 نقطة مع انخفاض طفيف، بينما حقق GPT-5.5 عبر Codex 4.30 فقط. وتقول المصدر إن أيًا من النماذج الأخرى التي جرى اختبارها لم تحقق تنفيذًا كاملًا للتعليمات البرمجية. وإذا صمدت هذه الأرقام أمام تدقيق أوسع، فهي تشير إلى أن الحافة المتقدمة لقدرات النماذج في مهام الأمن السيبراني الهجومي تنفصل عن بقية المجال أسرع مما أظهرته كثير من التقييمات العامة.
التكلفة تغيّر التفسير
لا يشير المعيار إلى فائز بسيط. ويؤكد النص المصدر من The Decoder أن أداء Mythos جاء بسعر مرتفع. فقد بلغت تكلفة تشغيل Mythos الكامل عبر 122 حلقة نحو 36,428 دولارًا، بينما نفذ GPT-5.5 123 حلقة بحوالي 3,075 دولارًا. وهذا فارق يقارب اثني عشر ضعفًا.
وهذا مهم لأن القدرة من دون سياق التكلفة قد تكون مضللة. فالنموذج الذي يؤدي بشكل أفضل بكثير لكنه يتطلب إنفاقًا أعلى بكثير قد لا يكون دائمًا هو القصة الأهم، خاصة إذا كان منافس أرخص يمكنه التحسن عبر استخدام المزيد من الحوسبة أو أزمنة تشغيل أطول. وتشير المقالة تحديدًا إلى هذا الاحتمال، مقترحةً أن OpenAI قد تتمكن من تضييق الفجوة عبر تخصيص مزيد من الحوسبة للمهمة.
لماذا يعد V8 هدفًا مهمًا
إن التركيز على V8 يرفع من مستوى الرهان. ويشير المصدر إلى أن V8 يشغّل Chrome وEdge وNode.js وCloudflare Workers، ما يجعله أحد أكثر محركات البرمجيات تأثيرًا في الإنترنت الحديث. ولذلك فإن معيارًا مرتبطًا بثغرات V8 الحقيقية يقول الكثير عن الآثار الأمنية العملية مقارنةً ببيئة تجريبية أو تحدٍّ شبيه بالأحاجي.
ولهذا أيضًا يُعد التصميم متعدد المستويات لافتًا. فهو يعكس الفرق بين العثور على مشكلة وتحويلها إلى سلاح. وفي العمل الأمني، هذا الفرق هو كل شيء. فالوكيل القادر على الاستدلال عبر الخطوات من اكتشاف الخطأ إلى الاستغلال الناجح يعمل ضمن فئة مخاطر مختلفة تمامًا عن وكيل لا يستطيع سوى الإشارة إلى أنماط برمجية مشبوهة.
المقارنات مع الأداء البشري تحتاج إلى حذر
يقول النص المصدر إن Seunghyun Lee، المؤلف المشارك في ExploitBench والباحث الأمني المتمرس الذي أبلغ عن أكثر من 20 ثغرة في المتصفحات، راجع النتائج واعتبر أن Mythos يوازي باحثًا بشريًا كفؤًا في أمن المتصفحات. هذا ادعاء لافت، لكنه يحتاج إلى قراءة متأنية. يمكن للمعايير أن تكشف قدرة حقيقية، مع ترك أسئلة مفتوحة حول الموثوقية وقابلية إعادة الإنتاج وكيفية أداء النماذج خارج بيئة تقييم منظمة.
ومع ذلك، يصعب تجاهل الاتجاه. فالمعيار يشير إلى أن بعض أنظمة الذكاء الاصطناعي الرائدة تقترب من تطوير الاستغلال من البداية إلى النهاية داخل محرك برمجي كبير. وأصبحت الحجج المتبقية تدور أكثر حول الدرجة والتكلفة والقيود التشغيلية، لا حول ما إذا كان هذا المسار موجودًا أصلًا.
وبالنسبة إلى صناع السياسات ومشغلي المنصات والمختبرات، فإن ذلك يغيّر النقاش. فقد لا يكون السؤال الأهم بعد الآن ما إذا كانت النماذج قادرة على المساعدة في أعمال الأمن السيبراني الهجومي، بل مدى السرعة التي تصبح فيها هذه المساعدة أرخص وأكثر استقلالية وأكثر إتاحة على نطاق أوسع.
هذه المقالة مستندة إلى تقرير The Decoder. اقرأ المقال الأصلي.
Originally published on the-decoder.com


