تريد Campbell Brown أن يُحكم على طبقة المعلومات في الذكاء الاصطناعي من قبل الخبراء، لا مقاييس التفاعل
قضت Campbell Brown سنوات في مجال تحديد كيفية إبراز المعلومات والتحقق منها والثقة بها على الإنترنت. وهي اليوم تجادل بأن عنق الزجاجة التالي للمعلومات ليس خلاصات وسائل التواصل الاجتماعي، بل أنظمة الذكاء الاصطناعي التوليدي، وأن الصناعة لا تزال لا تتعامل مع المشكلة بالجدية الكافية. وتقوم شركتها الجديدة، Forum AI، على فرضية بسيطة: إذا كانت النماذج الكبيرة تتحول إلى قناة رئيسية يفهم الناس من خلالها العالم، فإن إجاباتها عن الموضوعات الحساسة يجب أن تُختبر وفق معايير يصممها خبراء المجال.
قلق Brown ليس نظريًا. ففي تصريحات نوقشت عبر TechCrunch، وصفت الذكاء الاصطناعي بأنه قناة متزايدة المركزية للمعلومات، وقالت إن الأداء في “الموضوعات عالية الحساسية” لا يزال ضعيفًا. وتشمل هذه الموضوعات الجغرافيا السياسية، والصحة النفسية، والمال، والتوظيف، وهي مجالات يمكن أن تكون للإجابات الناقصة أو المشوهة فيها عواقب حقيقية، وغالبًا ما لا تكون الإجابة الصحيحة فيها ثنائية. وهذا الغموض هو بالضبط ما يجعل Brown تعتقد أن الصناعة تحتاج إلى أدوات تقييم أفضل بدلًا من مزيد من الثقة بحدس النماذج.
يعتمد نموذج Forum AI على ترجمة إجماع الخبراء إلى اختبارات قابلة للتوسع
يبدأ نهج Forum AI بتجنيد متخصصين معروفين لتصميم المعايير المرجعية. وقالت Brown إن الشركة تحدد أبرز الخبراء في مجال ما، وتطلب منهم تصميم إطار التقييم، ثم تُدرّب حكامًا من الذكاء الاصطناعي على تقييم مخرجات النماذج على نطاق واسع. وفي عملها في الجغرافيا السياسية، جمعت Forum AI قائمة بارزة تضم Niall Ferguson وFareed Zakaria ووزير الخارجية السابق Tony Blinken والرئيس السابق لمجلس النواب Kevin McCarthy وAnne Neuberger، وهي مسؤولة سابقة للأمن السيبراني في إدارة أوباما.
الهدف التشغيلي ليس القضاء على الخلاف تمامًا. فقد قالت Brown إن Forum AI تسعى إلى أن يصل حكامها من الذكاء الاصطناعي إلى نحو 90% من الإجماع مع الخبراء البشريين. ووفق روايتها، تمكنت الشركة من بلوغ هذا المستوى. والنتيجة الضمنية هي أن Forum AI ترى التقييم نفسه منتجًا تقنيًا: نظامًا يمكنه تحويل حكم الخبراء، الذي يكون عادة مكلفًا وبطيئًا، إلى اختبار متكرر عبر العديد من مخرجات النماذج.
وهذا مهم لأن أكثر شركات النماذج نفوذًا تُقاس بدرجة كبيرة في مجالات مثل البرمجة والرياضيات، حيث يكون القياس المعياري الآلي أسهل. وانتقاد Brown هو أن المشكلات التي يواجهها المستخدمون في حياتهم اليومية تقع غالبًا في مكان آخر. فأسئلة السياسة أو الصحة أو المال أو العمل محمّلة بالسياق والمنظور وتعارض القيم. وهي أصعب في التقييم، لكنها أيضًا أصعب في اعتبارها هامشية.
تأتي هذه التحذيرات من شخص شاهد المنصات الاجتماعية وهي تُحسّن للهدف الخطأ
تكتسب حجة Brown وزنًا إضافيًا لأنها تشكلت من خلال تجربتها في Facebook، حيث شغلت منصب أول وآخر رئيسة أخبار مخصصة للشركة. وقالت لـ TechCrunch إنها أدركت المخاطر بعد فترة قصيرة من الإطلاق العام لـ ChatGPT بينما كانت لا تزال في Meta. ومن وجهة نظرها، كان التحول فوريًا: أدوات الذكاء الاصطناعي كانت على وشك أن تصبح الطريق المهيمن الذي يبحث الناس من خلاله عن المعلومات ويتلقونها.
كما يفسر هذا المنظور لماذا تركز على الحوافز. وقالت Brown إن أكثر ما كان يزعجها هو أن الدقة لا تبدو أولوية رئيسية لشركات النماذج الأساسية. وفي روايتها، تركز المختبرات الكبرى بشدة على أداء البرمجة والرياضيات، بينما تكون الدقة المعلوماتية أصعب في التوحيد القياسي، وبالتالي أسهل في التأجيل. وردها هو أن الصعوبة لا تجعل المشكلة اختيارية.
المقارنة مع وسائل التواصل الاجتماعي مباشرة. وقالت Brown إنها رأت بنفسها ما يحدث عندما تُحسّن منصة ما للهدف الخاطئ، ووصفت الجهود السابقة التي بذلتها Meta في الأخبار والتحقق من الحقائق بأنها فشلت بطرق مهمة. والدرس الذي تستخلصه ليس فقط أن الإشراف صعب، بل إن الأنظمة المبنية حول التفاعل يمكن أن تنحرف بعيدًا عن القيمة الاجتماعية، حتى عندما يصبح الضرر واضحًا بأثر رجعي.
ما الذي تقول Forum AI إن النماذج الحالية تفعله بشكل خاطئ
انتقاد Brown لسلوك النماذج الحالية محدد بدرجة كافية ليشير إلى أن الشركة ترى أنماطًا متكررة لا هلوسات معزولة. فقد ذكرت أن Gemini يستمد من مواقع الحزب الشيوعي الصيني لقصص لا علاقة لها بالصين، وقالت إن כמעט جميع النماذج الكبرى تُظهر تحيزًا سياسيًا يميل إلى اليسار. كما أشارت إلى إخفاقات أكثر دقة: غياب السياق، وغياب وجهات النظر، وحجج تُبسط آراء الخصوم بطريقة رجل القش دون الإشارة بوضوح إلى ضعف هذا التمثيل.
تتصل هذه الشكاوى بمشكلة أوسع في تقييم الذكاء الاصطناعي. فقد يبدو النموذج سلسًا وسريعًا ومفيدًا بينما يقدّم المعلومات من خلال عدسة ضيقة أو غير مستقرة. وإذا أغفل المخرج الإطار ذي الصلة، أو فشل في عكس نطاق وجهات النظر الجادة، أو اعتمد على مصادر ضعيفة، فقد يحصل المستخدمون على شيء يبدو موثوقًا لكنه مضلل بنيويًا. وتقول Brown إن هذه ليست عيوبًا تجميلية. ففي الموضوعات عالية الحساسية، هي إخفاقات منتج.
كما جادلت بأن كثيرًا من الإصلاحات مباشرة نسبيًا. ورغم أنها لم تعرض مخططًا تقنيًا كاملًا في النقاش المشار إليه، فإن تعليقها يوحي بأن جزءًا من فجوة الجودة يعود إلى الأولويات وتصميم الاختبارات وحلقات التغذية الراجعة، وليس فقط إلى أبحاث حدودية غير محلولة.
جبهة جديدة في منافسة الذكاء الاصطناعي
تأسست Forum AI قبل 17 شهرًا في نيويورك، ما يضعها في قلب سوق يتشكل بسرعة لبنية حوكمة الذكاء الاصطناعي التحتية. وتتعرض الشركات التي تبني النماذج الأساسية لضغط من الجهات التنظيمية وعملاء المؤسسات والجمهور لإثبات أن أنظمتها تتصرف بمسؤولية في المجالات التي تؤثر في سبل العيش والسياسة والصحة والأمن. وتضع Brown Forum AI في موقع الشركة التي يمكنها قياس ما إذا كانت تلك الأنظمة تفعل ذلك.
ويمثل ذلك تحولًا ملحوظًا في المكان الذي قد تتراكم فيه القيمة داخل طبقة الذكاء الاصطناعي. فما تزال المختبرات الكبرى تهيمن على تدريب النماذج وتوزيعها، لكن طبقة موازية آخذة في الظهور حول التدقيق والقياس المعياري والتقييم المستقل. وإذا كانت Brown على حق في أن أنظمة الذكاء الاصطناعي أصبحت المسار الافتراضي الذي يستهلك من خلاله كثير من المستخدمين المعلومات، فإن الأدوات التي تقيّم الجودة في الموضوعات الخلافية قد تصبح مهمة استراتيجيًا بقدر أهمية النماذج نفسها.
كما توجد قسمة ثقافية ضمنية في تعليقاتها. فقد قالت Brown إن حوارًا يدور في وادي السيليكون، بينما يدور حوار مختلف تمامًا بين المستهلكين. والمغزى أن البنّائين قد يظلون منشغلين بمقاييس أداء لا تتطابق بسهولة مع مخاوف المستخدمين العاديين، خاصة الآباء والناخبين والمرضى والعاملين. وتقول Forum AI إن تلك المخاوف يمكن تحويلها إلى معيار قابل للقياس.
السؤال الأكبر هو: من يحدد ما تعنيه “معلومات جيدة” في الذكاء الاصطناعي
لا تحل شركة Brown المشكلة الفلسفية في قلب أنظمة معلومات الذكاء الاصطناعي: من ينبغي أن يقرر ما الذي يُعد متوازنًا أو دقيقًا أو كافيًا من حيث السياق في الموضوعات التي يختلف فيها الخبراء. وما تقدمه Forum AI بدلًا من ذلك هو إجابة إجرائية. اختر خبراء معترفًا بهم، وابنِ معايير مرجعية صريحة، ودرّب أنظمة التقييم وفق حكمهم، واجعل المقايضات مرئية.
ولا يزال من غير الواضح ما إذا كان هذا النموذج سيحظى بقبول واسع. لكن Brown حددت نقطة ضعف أصبح من الصعب على الصناعة تجنبها. فالذكاء الاصطناعي التوليدي لم يعد يُحكم عليه فقط بمدى قدرته على كتابة الشيفرة أو حل المعادلات. بل يُحكم عليه أيضًا بكيفية وساطته للفهم في مجالات معقدة وذات تبعات. وإذا أصبحت هذه الطبقة البوابة الجديدة للمعرفة العامة، فقد تتحول معركة تصميم المعايير المرجعية إلى واحدة من أهم المعارك في الذكاء الاصطناعي.
تعتمد هذه المقالة على تقرير من TechCrunch. اقرأ المقال الأصلي.
Originally published on techcrunch.com






