معيار جديد يضع استدلال النماذج في بيئة لا ترحم
قد تتفوق أنظمة الذكاء الاصطناعي الرائدة في البرمجة والتلخيص والمهام الأخرى المنظمة، لكن دراسة جديدة تشير إلى أن التنبؤ طويل الأمد في العالم الحقيقي لا يزال مهارة أضعف بكثير. في معيار بُني حول المراهنة على مباريات كرة القدم في الدوري الإنجليزي الممتاز، خسرت النماذج من Google وOpenAI وAnthropic وxAI وغيرها المال على مدار موسم محاكاة كامل.
التقرير، الذي يحمل اسم KellyBench وأصدرته الشركة الناشئة General Reasoning، اختبر ثمانية أنظمة ذكاء اصطناعي في إعادة بناء افتراضية لموسم 2023–24 من الدوري الإنجليزي الممتاز. وقد مُنح كل نموذج بيانات تاريخية وإحصاءات الفرق، ثم طُلب منه بناء استراتيجيات تهدف إلى تعظيم العوائد مع إدارة المخاطر. وضعت الأنظمة رهانات على نتائج المباريات وإجمالي الأهداف مع تقدم الموسم، مع التكيف مع المعلومات والأحداث الجديدة من دون الوصول إلى الإنترنت.
كل نموذج خسر المال
النتيجة الأساسية واضحة. وفقًا لمؤلفي الدراسة، خسر كل نموذج رائد جرى تقييمه المال خلال الموسم، وتعرض كثير منها للانهيار الكامل. حقق Claude Opus 4.6 من Anthropic أفضل نتيجة متوسطة، بخسارة بلغت 11% وبجولة كادت تنتهي عند نقطة التعادل. سجل GPT-5.4 من OpenAI متوسط عائد على الاستثمار بلغ سالب 13.6% عبر ثلاث محاولات. أظهر Gemini 3.1 Pro من Google تباينًا مرتفعًا على نحو غير معتاد، محققًا ربحًا بنسبة 33.7% في محاولة واحدة لكنه أفلس في محاولة أخرى.
أسوأ أداء مذكور في النص المقدم جاء من Grok 4.20 التابع لـ xAI، الذي أفلس في جولة وفشل في إكمال المحاولتين الأخريين. وفي الجدول المنشور، سُجل متوسط العائد على الاستثمار لـ Grok عند سالب 100%، مع رصيد نهائي متوسط يساوي صفرًا. كما أنهى Acree Trinity أيضًا عند الصفر.
لماذا يهم هذا الإعداد
أسواق المراهنة ليست بديلًا مثاليًا عن الذكاء العام، لكنها تمثل اختبار ضغط مفيدًا لعدة قدرات مهمة خارج الرياضة. يجب على النماذج تفسير البيانات المشوشة، والموازنة بين المخاطرة والعائد، وتحديث المعتقدات بمرور الوقت، وتجنب الإفراط في الثقة. هذه مهام صعبة لأن النجاح يعتمد أقل على توليد لغة تبدو مقنعة وأكثر على جودة القرار في ظل عدم اليقين.
وهذا ما يجعل النتيجة مثيرة للاهتمام. لا يدعي المعيار أن نماذج اللغة سيئة في جميع أشكال التنبؤ. لكنه يشير إلى أن الأنظمة المتقدمة قد تظل ضعيفة عندما تُجبر على اتخاذ قرارات متكررة ومقيدة برأس المال في بيئة متغيرة. ويبدو أن هذا ينطبق بشكل خاص عندما لا يكون الهدف شرح حدث بعد وقوعه، بل التحرك قبل معرفة النتيجة.
موازنة مفيدة أمام الضجيج حول الذكاء الاصطناعي
تأتي هذه النتائج في وقت تُطرح فيه مزاعم قدرة الذكاء الاصطناعي غالبًا بصيغ واسعة وسريعة التغير. تتحسن النماذج في مهام البرمجة والمعايير متعددة الوسائط واختبارات الاستدلال المختلفة. لكن نتائج KellyBench تشير إلى استنتاج أضيق وأكثر حذرًا: التقدم في مهام المختبر أو سير العمل لا يتحول تلقائيًا إلى حكم رصين في مجالات حية وغير يقينية.
ينص النص الأصلي للمقال صراحة على أن هذه النتائج قد توفر بعض الطمأنينة للمهنيين القلقين من أن الذكاء الاصطناعي سيحل سريعًا محل الخبرة البشرية في مجالات مثل التمويل والتسويق. يجب التعامل مع هذا التفسير بحذر، لكن الفكرة الأساسية تبقى قائمة. فالأنظمة القادرة على إنتاج مخرجات مبهرة قد تظل تعاني عند اتخاذ قرارات ديناميكية تمتد لأسابيع أو أشهر.
كان التباين مرتفعًا، لكنه لم يكن كافيًا لإنقاذ المجال
من أكثر التفاصيل دلالة في النتائج الفارق بين أفضل وأسوأ محاولات بعض النماذج. فمثلًا، تمكن Gemini 3.1 Pro من تحقيق ربح قوي في جولة واحدة، لكنه أفلس بالكامل في جولة أخرى. وهذا يشير إلى أن سلوك النموذج في هذا النوع من البيئات قد يكون غير مستقر، مع نتائج شديدة الحساسية لتفاصيل التنفيذ أو التحديثات أو أنماط القرار الداخلية.
قد يكون التباين العالي مغريًا لأنه يخلق انتصارات مرئية. لكن على مدى موسم كامل، يصبح متوسط الأداء أهم من القمم المنفردة. وبذلك المقياس، كان أداء المجال ضعيفًا. وخلص مؤلفو الدراسة إلى أن الأنظمة جاءت أدنى من أداء البشر بصورة منهجية في هذا السيناريو.
ما الذي يثبته المعيار وما الذي لا يثبته
لا تحسم هذه الدراسة مسألة مدى قدرة وكلاء الذكاء الاصطناعي في المستقبل على التنبؤ أو التداول أو دعم القرار. لكنها تعزز انضباطًا مهمًا: ينبغي ربط الادعاءات حول كفاءة النماذج ببيئات محددة، لا تعميمها من نقاط قوة غير ذات صلة. فالنموذج الذي يكتب الكود جيدًا ليس بالضرورة النموذج الذي يخصص رأس المال جيدًا.
هذا التمييز يزداد أهمية مع قيام الشركات بتسويق أنظمة الذكاء الاصطناعي كأدوات استراتيجية واسعة. ويذكّرنا اختبار KellyBench بأن العالم يقاوم التنبؤ النظيف. ففي المجالات التي تشكلها حالة عدم اليقين والحوافز وتطور المعلومات، تظل الفجوة واسعة بين التحليل المعقول والحكم الجيد باستمرار.
- اختبرت General Reasoning ثمانية أنظمة ذكاء اصطناعي في قرارات مراهنة على الدوري الإنجليزي الممتاز خلال موسم كامل.
- خسرت جميع النماذج المال في المتوسط، وفقًا لتقرير KellyBench.
- تشير النتائج إلى أن الأداء القوي في بعض مهام الذكاء الاصطناعي لا يضمن تنبؤًا متينًا في العالم الحقيقي.
هذه المقالة مستندة إلى تقرير Ars Technica. اقرأ المقال الأصلي.




