Anthropic تراجع تقريرًا عن وصول إلى نموذج ذكاء اصطناعي مقيد
أكدت Anthropic أنها تحقق في تقرير عن وصول غير مصرح به إلى Claude Mythos Preview، وهو نموذج وصفته الشركة بأنه شديد الخطورة بحيث لا يصلح للإطلاق العام. وذُكر أن هذا الوصول حدث عبر بيئة تابعة لمورّد خارجي.
وجاء في بيان الشركة، الذي نقلته Bloomberg وأعادت Gizmodo روايته، أن Anthropic تلقت تقريرًا يزعم أن وصولًا غير مصرح به إلى Claude Mythos Preview حدث عبر إحدى بيئات مورديها الخارجيين. وأفادت Bloomberg بأنها راجعت عرضًا حيًا ولقطات شاشة من أحد أعضاء المجموعة التي قيل إنها كانت مسؤولة عن الوصول.
الحقائق المتاحة علنًا محدودة، كما أن التقرير يتحفظ في تحديد الأشخاص والطرق المعنية. ومع ذلك، يثير الحادث سؤالًا حوكميًا جديًا لمختبرات الذكاء الاصطناعي المتقدمة: حتى عندما يُحجب نموذج عن الإطلاق العام، قد تخلق وصول المورّدين والأدوات الداخلية مسارات يصعب تأمينها أكثر من النموذج نفسه.
كيف حدث الوصول المبلغ عنه
وفقًا لرواية المصدر الملخصة في المقال، جمعت المجموعة عدة أجزاء من المعلومات. ويقال إن مجموعة على Discord استخدمت روبوتات للبحث في GitHub عن معلومات حول نماذج الذكاء الاصطناعي غير المعلنة. كما تشير الرواية إلى خرق بيانات في شركة Mercor الناشئة لتدريب الذكاء الاصطناعي. ثم يُزعم أن المجموعة جمعت تلك المعلومات مع وصول كان متاحًا لشخص يعمل لدى متعاقد مع Anthropic.
ويُقال إن تلك السلسلة من الأحداث سمحت للمجموعة باستنتاج الموقع الإلكتروني لـ Claude Mythos. ويقال إن المجموعة تمكنت من الوصول إلى النموذج منذ 7 أبريل، وهو اليوم نفسه الذي أعلنت فيه Anthropic عن Project Glasswing.
وادعى المصدر المقتبس في التقرير أن المجموعة كانت مهتمة بالتجربة مع نماذج جديدة بدلًا من إحداث ضرر. هذا الادعاء لا يخفف من خطورة مشكلة الوصول. إذا كان نموذج مقيد متاحًا لطرف غير مصرح له، فإن الخطر لا يعتمد فقط على ما يقوله الطرف الذي أُبلغ عنه أولًا عن نيته القيام به.
مشكلة مخاطر المورّدين
يسلط الحادث المبلغ عنه الضوء على نقطة ضعف شائعة في العمليات التقنية عالية الحماية: قد تؤمّن الشركة الرئيسية أنظمتها الخاصة بينما تحتفظ بيئات المتعاقدين والموردين والشركاء بقدر كافٍ من الوصول لتصبح أهدافًا جذابة.
وبالنسبة لشركات الذكاء الاصطناعي، فإن المخاطر غير عادية. فالنموذج المتقدم ليس مجرد ملف أو خدمة. قد يتضمن قدرات تعمد المطور حجبها عن الإطلاق العام. وإذا كانت ضوابط الوصول حول النماذج التجريبية أو أنظمة التقييم أو بيئات المتعاقدين ضعيفة، فقد تتعرض سياسة الإطلاق الخاصة بالشركة للنسف قبل أن يُطلق النموذج أصلًا.
ولا يحدد التقرير النطاق الكامل للوصول، ولا ما إذا كانت أوزان النموذج قد كُشفت، ولا ما إذا كان الوصول مقتصرًا على واجهة. هذه الفروق مهمة. فقد يكون الوصول إلى واجهة ما محفوفًا بالمخاطر، لكنه يختلف عن سرقة أوزان النموذج أو أصول التدريب. وستحتاج Anthropic في تحقيقها إلى تحديد ما الذي كان يمكن الوصول إليه بالضبط، ولفترة كم، ومن خلال أي أنظمة.
لماذا يهم هذا خارج Anthropic
تعتمد مختبرات الذكاء الاصطناعي بشكل متزايد على متعاقدين خارجيين في التقييم، والعمل على البيانات، واختبار الاختراق الدفاعي، ووضع الوسوم، والعمليات. وقد تخلق هذه التدفقات أنماط وصول واسعة يصعب رصدها، خاصة عندما تتحرك الفرق بسرعة لبناء الأنظمة غير المعلنة واختبارها.
لذلك يأتي تقرير Claude Mythos وسط نقاش أوسع في القطاع حول أمن النماذج المتقدمة. فإذا كانت الشركات تقول إن بعض النماذج قوية إلى درجة لا تسمح بإطلاقها، فعليها أيضًا أن تُظهر أن برامج الوصول المقيد، وأنظمة الموردين، وبيئات المعاينة الداخلية تُدار بنفس الجدية.
وهناك أيضًا مسألة ثقة. فالحكومات والعملاء من الشركات والجمهور يُطلب منهم قبول أن مطوري الذكاء الاصطناعي قادرون على إدارة أنظمة تزداد قدرة بأمان. وأي مسار وصول غير مصرح به عبر بيئة مورّد هو من النوع الذي يختبر هذا الادعاء.
ما الذي يجب مراقبته لاحقًا
الأسئلة الرئيسية الآن واضحة. سيتعين على Anthropic تحديد ما إذا كان الوصول المبلغ عنه قد حدث بالفعل، وما إذا كانت أي بيانات حساسة أو قدرات نموذجية قد كُشفت، وما إذا كان الوصول قد أُغلق، وما إذا كانت ضوابط المورّدين الخارجيين بحاجة إلى تغيير.
وسيراقب قطاع الذكاء الاصطناعي الأوسع ما إذا كانت المختبرات تشدد وصول المتعاقدين، وتحسن المراقبة حول أنظمة المعاينة، وتحد من المعلومات القابلة للاكتشاف عن النماذج غير المعلنة. وقد يكون أهم درس أن سلامة النموذج ليست مجرد مشكلة بحثية، بل هي أيضًا مشكلة بنية تحتية وضبط وصول وإدارة مورّدين.
هذه المقالة مبنية على تقرير Gizmodo. اقرأ المقال الأصلي.
Originally published on gizmodo.com




