معيار SOOHAK يختبر الذكاء الاصطناعي في الرياضيات الصعبة والمسائل غير القابلة للحل

نوع أصعب من اختبار الرياضيات للذكاء الاصطناعي

يحاول معيار جديد يُسمى SOOHAK قياس أمرٍ تغفله كثير من تقييمات الذكاء الاصطناعي الشائعة: هل يستطيع النموذج أن يستدل عبر مسائل رياضية صعبة حقًا، وهل يعرف متى ينبغي له الامتناع عن الإجابة. ووفقًا للنص المصدر المرفق، بُني هذا المعيار بواسطة اتحاد من 64 عالم رياضيات من مجموعات تشمل Carnegie Mellon University وEleutherAI وSeoul National University.

يضم SOOHAK 439 مهمة أصلية مكتوبة يدويًا. وتنقسم المجموعة إلى مجموعة “Challenge” تضم 340 مسألة، موجهة إلى الرياضيات على مستوى الدراسات العليا والبحث، ومجموعة “Refusal” تضم 99 مسألة تتضمن أخطاء متعمدة، مثل التناقضات أو نقص المعلومات الكافية للحصول على جواب واضح. القسم الثاني هو الأكثر غرابة. فهو يختبر ما إذا كان النموذج يستطيع اكتشاف أن المهمة غير سليمة بدلًا من تقديم نتيجة بثقة على أي حال.

كما حاول مبتكرو المعيار تقليل احتمال أن تكون النماذج قد رأت هذه المواد أثناء التدريب. ويقول النص المصدر إن كل مسألة كُتبت من الصفر بدلًا من اقتباسها من الكتب الدراسية أو أرشيفات المسابقات. وشمل المساهمون أساتذة وطلاب دكتوراه وباحثين بعد الدكتوراه وحائزين على ميداليات في الأولمبياد الدولي للرياضيات، وطُلب منهم تأكيد أنهم لم يستخدموا أي مساعدة من الذكاء الاصطناعي أثناء صياغة الأسئلة.

الرياضيات على مستوى البحث ما تزال نقطة ضعف واضحة

تُظهر النتائج المعلنة أن النماذج المتقدمة ما تزال تعاني بشدة عندما تنتقل المسائل إلى ما وراء نطاق مسائل المسابقات المألوفة. ففي مجموعة Challenge، حصل Gemini 3 Pro من Google على 30%، تلتْه نسخ GPT-5 بنسبة 26%. وهبط Claude Opus 4.5 إلى 10%، بينما بقيت الأنظمة ذات الأوزان المفتوحة، بما فيها Kimi-2.5 وQwen3-235B وGPT-OSS-120B، دون 15%.

العنوان هنا ليس أن نموذجًا يتفوق قليلًا على آخر. بل إن أياً منها ليس قويًا بشكل ثابت في هذه الفئة من الأعمال غير المنشورة ذات المستوى البحثي. ويقول النص المصدر إن أي نموذج لم يتمكن من حل 124 مسألة من مسائل Challenge. وهذا يوحي بأن سقف الاستدلال الرياضي المتقدم لا يزال أدنى بكثير مما قد توحي به السرديات العامة الأخيرة حول الأداء بمستوى الأولمبياد.

أما المجموعة المرافقة الأسهل، SOOHAK-Mini، فترسم صورة مختلفة. هناك تتقارب الأنظمة الأفضل بدرجة أكبر وتحقق نتائج أعلى بكثير. ولا يظهر الهبوط الحاد إلا عندما تنتقل المهام إلى مواد أقل معيارية وأقل تجهيزًا مسبقًا. ووفقًا للنص المصدر، يرى مؤلفو المعيار أن هذا قد يكشف ضعفًا في نقل المهارة إلى المشكلات المتخصصة غير المنشورة، خصوصًا لدى النماذج ذات الأوزان المفتوحة.

Create, edit and star in videos with two Google Vids updates

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

توسّع Google إنشاء الفيديو بالذكاء الاصطناعي داخل Workspace عبر توليد المقاطع وتحريرها بالاعتماد على الأوامر النصية، إلى جانب صور رمزية مخصصة تُنشأ من صورة سيلفي وتسجيل صوتي.

Read article

قد تكون مشكلة الامتناع عن الإجابة مهمة بقدر أهمية الحل

قد تكون المساهمة الأهم لهذا المعيار هي قسم الامتناع عن الإجابة. في الاستخدام الواقعي، لا يُحكم على نظام الذكاء الاصطناعي فقط بمدى صحة إجاباته، بل أيضًا بقدرته على إدراك متى تكون المطالبة ناقصة الصياغة أو متناقضة أو مستحيلة الإجابة بالاستناد إلى المعلومات المعطاة. يعامل SOOHAK ذلك بوصفه قدرة أساسية.

وفي هذا الجانب أيضًا كانت النتائج ضعيفة. ويذكر النص المصدر المرفق أن أفضل نموذج ظل دون 50% في التعرّف على المشكلات غير القابلة للحل. وهذا يعني أن الأنظمة الرائدة لا تزال تفضّل غالبًا التخمين بدلًا من تحديد فرضية مفقودة أو تناقض. عمليًا، هذا السلوك أكثر خطورة من خطأ حسابي واضح لأنه قد يبدو واثقًا وموثوقًا بينما هو خاطئ بنيويًا.

وهذا نمط متكرر في تقييمات الذكاء الاصطناعي. فمع تحسن النماذج في المعايير المألوفة، قد يتوقف المعيار نفسه عن عكس أصعب الإخفاقات المتبقية. ويبدو أن SOOHAK صُمم لدفع المجال بعيدًا عن لوحات الصدارة التي تهيمن عليها التغطية والحفظ، نحو اختبارات للتجريد والجدة والانضباط المعرفي.

لماذا يتميز هذا المعيار

يستخدم مسائل أصلية بدلًا من مواد مكررة من الكتب الدراسية أو المسابقات.
يفصل بين حل المشكلات المعتاد وسلوك الامتناع عن الإجابة.
يركز على صعوبة على مستوى البحث لا على الرياضيات المدرسية أو الأولمبية فقط.
يبرز أن الأداء القوي في مجموعات معيارية أسهل لا ينتقل بالضرورة إلى المستويات الأعلى.

إذا ثبتت النتائج المعلنة تحت تدقيق أوسع، فقد يصبح SOOHAK أداة موازنة مفيدة أمام تقييمات الرياضيات المشبعة بشكل متزايد. وللمطورين، يشير إلى مشكلتين لم تُحسمَا بعد: نماذج الحدود العليا ما تزال تصطدم بحاجز في الرياضيات عالية المستوى غير المألوفة، كما أنها ما تزال تجيب غالبًا عندما ينبغي لها التوقف وشرح سبب استحالة الإجابة.

وتتجاوز أهمية هذا الأمر الرياضيات بكثير. فالأنظمة التي لا تستطيع التمييز بشكل موثوق بين الطلبات القابلة للحل وغير القابلة للحل مرجح أن ترتكب الخطأ نفسه في القانون والعلوم والهندسة وتحليل السياسات. لا يسأل SOOHAK فقط ما إذا كان الذكاء الاصطناعي يستطيع حل مسائل أصعب، بل يسأل ما إذا كان الذكاء الاصطناعي يستطيع إدراك حدود ما يعرفه.

هذه المقالة مبنية على تقرير The Decoder. اقرأ المقال الأصلي.

Originally published on the-decoder.com

علماء رياضيات يبنون اختبارًا أصعب للذكاء الاصطناعي بإدراج مسائل بلا إجابة صحيحة

نوع أصعب من اختبار الرياضيات للذكاء الاصطناعي

الرياضيات على مستوى البحث ما تزال نقطة ضعف واضحة

Google Vids يضيف Gemini Omni والصور الرمزية الشخصية

قد تكون مشكلة الامتناع عن الإجابة مهمة بقدر أهمية الحل

لماذا يتميز هذا المعيار

Comments (0)

Keep Reading