فتح الصندوق الأسود أكثر قليلًا

أحد أكثر جوانب الإحباط في الذكاء الاصطناعي الحديث هو أن المطورين غالبًا ما يستطيعون ملاحظة ما يخرجه النموذج دون أن يفهموا حقًا لماذا أنتج تلك النتيجة. يمكن أن تبدو النماذج اللغوية الكبيرة قوية، متقلبة، غامضة، وصعبة التوجيه بدقة. لهذا يبرز أداة جديدة من الشركة الناشئة Goodfire في سان فرانسيسكو. ووفقًا لما لخصته النشرة اليومية Download التابعة لـ MIT Technology Review، أطلقت الشركة نظامًا يسمى Silico يتيح للباحثين النظر داخل نموذج الذكاء الاصطناعي وضبط المعلمات أثناء التدريب.

الطموح وراء هذا الوصف كبير. لا يُقدَّم Silico كطبقة تطبيقية أخرى مبنية حول نموذج، بل كأداة للتفسير الميكانيكي: وسيلة لرسم الخلايا العصبية والمسارات داخل النظام ثم تعديلها لتقليل السلوكيات غير المرغوبة أو توجيه المخرجات بشكل أكثر تعمدًا. ووفقًا للنص المصدر، يتمثل هدف Goodfire في جعل بناء نماذج الذكاء الاصطناعي “أقل شبهًا بالسحر وأكثر شبهًا بالعلم”.

لماذا يهم التفسير الميكانيكي

قد يبدو المصطلح متخصصًا، لكن المشكلة التي يعالجها واسعة. كثير من أنظمة الذكاء الاصطناعي تُدرَّب بطرق تنتج قدرات مبهرة من دون أن تقدم تفسيرًا واضحًا بالمثل للمنطق الداخلي. يمكن للمطورين قياس النتائج، واختبار النماذج هجوميًا، وضبط السلوك من الخارج، ومع ذلك يفتقرون إلى فهم دقيق للسمات الداخلية التي تسبب استجابات معينة.

يحاول التفسير الميكانيكي تغيير ذلك عبر تحديد الدوائر والمسارات والتفعيلات الداخلية التي تقابل السلوكيات المتعلمة. وإذا نجح، فقد يجعل تطوير النماذج أكثر قابلية للقراءة. بدلًا من التعامل مع نظام الذكاء الاصطناعي كجسم مغلق يُختبر عبر المطالبات والتصحيحات اللاحقة للتدريب، يمكن للباحثين البدء في فحص الآلات نفسها وتعديلها.

لهذا فإن ادعاء Goodfire مهم استراتيجيًا حتى من ملخص قصير للمصدر. أداة تكشف فعلًا “المقابض والأقراص” داخل النموذج يمكن أن تغيّر طريقة تفكير المطورين في السلامة، والمحاذاة، وتصحيح الأخطاء، والتحكم في المنتج. فالمسألة ليست مجرد فضول لمعرفة ما “يفكر” فيه النموذج، بل ما إذا كان المهندسون يستطيعون التدخل بدقة كافية لجعل الأنظمة أكثر موثوقية.