एक नया बेंचमार्क मॉडल की तर्क-क्षमता को एक कठोर माहौल में रखता है

फ्रंटियर एआई सिस्टम कोडिंग, सारांशण और अन्य संरचित कार्यों में उत्कृष्ट हो सकते हैं, लेकिन एक नया अध्ययन संकेत देता है कि लंबे क्षितिज वाली वास्तविक दुनिया की भविष्यवाणी अब भी कहीं कमजोर कौशल है। प्रीमियर लीग सॉकर मैचों पर दांव लगाने पर आधारित एक बेंचमार्क में Google, OpenAI, Anthropic, xAI और अन्य के मॉडल एक सिमुलेटेड सीज़न के दौरान सभी ने पैसा गंवाया।

KellyBench नाम की यह रिपोर्ट, जिसे स्टार्टअप General Reasoning ने जारी किया, ने 2023–24 प्रीमियर लीग सीज़न के एक आभासी पुनर्निर्माण में आठ AI प्रणालियों का परीक्षण किया। प्रत्येक मॉडल को ऐतिहासिक डेटा और टीम आँकड़े दिए गए, फिर उनसे ऐसी रणनीतियाँ बनाने को कहा गया जो जोखिम को प्रबंधित करते हुए रिटर्न अधिकतम करें। प्रणालियों ने इंटरनेट एक्सेस के बिना, नए जानकारी और घटनाओं के साथ खुद को ढालते हुए, सीज़न के आगे बढ़ने पर मैच परिणामों और गोल कुल पर दांव लगाए।

हर मॉडल को नुकसान हुआ

मुख्य परिणाम स्पष्ट है। अध्ययन के लेखकों के अनुसार, मूल्यांकित हर फ्रंटियर मॉडल ने सीज़न में पैसा गंवाया, और कई पूरी तरह तबाह हो गए। Anthropic के Claude Opus 4.6 ने सबसे अच्छा औसत परिणाम दिया, जिसमें 11% की हानि हुई और एक रन लगभग ब्रेक-ईवन के करीब रहा। OpenAI के GPT-5.4 ने तीन प्रयासों में औसतन निवेश पर ऋणात्मक 13.6% रिटर्न दर्ज किया। Google के Gemini 3.1 Pro में असामान्य रूप से अधिक भिन्नता दिखी, एक प्रयास में 33.7% लाभ हुआ लेकिन दूसरे में वह दिवालिया हो गया।

दिए गए पाठ में सबसे खराब प्रदर्शन xAI के Grok 4.20 का रहा, जो एक रन में दिवालिया हो गया और अन्य दो प्रयास पूरे नहीं कर सका। प्रकाशित तालिका में Grok का औसत ROI ऋणात्मक 100% और औसत अंतिम बैंकroll शून्य बताया गया। Acree Trinity भी शून्य पर समाप्त हुआ।

यह सेटअप क्यों मायने रखता है

बेटिंग बाज़ार सामान्य बुद्धि का एक पूर्ण प्रतिनिधि नहीं हैं, लेकिन वे स्पोर्ट्स से बाहर भी महत्वपूर्ण कई क्षमताओं के लिए उपयोगी तनाव-परीक्षण हैं। मॉडल को शोरयुक्त डेटा की व्याख्या करनी होती है, जोखिम और इनाम के बीच संतुलन बनाना होता है, समय के साथ अपने विश्वासों को अद्यतन करना होता है, और अति-आत्मविश्वास से बचना होता है। ये कठिन कार्य हैं, क्योंकि सफलता इस बात पर कम निर्भर करती है कि भाषा कितनी विश्वसनीय लगती है और अधिक इस पर कि अनिश्चितता के तहत निर्णय कितने अच्छे हैं।

यही इस परिणाम को दिलचस्प बनाता है। बेंचमार्क यह दावा नहीं करता कि भाषा मॉडल हर तरह की भविष्यवाणी में खराब हैं। हालांकि, यह सुझाव देता है कि उन्नत प्रणालियाँ भी तब कमजोर प्रदर्शन कर सकती हैं जब उन्हें बदलते परिवेश में पूंजी-सीमित, बार-बार होने वाले निर्णय लेने पड़ें। यह विशेष रूप से तब सच दिखता है जब लक्ष्य किसी घटना को बाद में समझाना नहीं, बल्कि परिणाम ज्ञात होने से पहले कार्रवाई करना हो।

एआई प्रचार के लिए एक उपयोगी प्रतिवजन

ये निष्कर्ष ऐसे समय आए हैं जब एआई क्षमता के दावे अक्सर व्यापक और तेज़ी से बदलते शब्दों में प्रस्तुत किए जाते हैं। मॉडल कोडिंग कार्यों, मल्टीमोडल बेंचमार्क और विभिन्न तर्क-परीक्षणों में बेहतर हो रहे हैं। लेकिन KellyBench के परिणाम एक संकीर्ण और अधिक सावधान निष्कर्ष की ओर संकेत करते हैं: प्रयोगशाला या वर्कफ़्लो कार्यों में प्रगति अपने-आप वास्तविक, अनिश्चित डोमेनों में मजबूत निर्णय में परिवर्तित नहीं होती।

लेख का स्रोत पाठ स्पष्ट रूप से नोट करता है कि ये निष्कर्ष उन पेशेवरों को कुछ सांत्वना दे सकते हैं जो इस बात से चिंतित हैं कि एआई वित्त और मार्केटिंग जैसे क्षेत्रों में मानव विशेषज्ञता को जल्दी बदल देगा। इस व्याख्या को सावधानी से लेना चाहिए, लेकिन मूल बात कायम है। जो प्रणालियाँ प्रभावशाली आउटपुट दे सकती हैं, वे फिर भी हफ्तों या महीनों में उभरने वाले गतिशील निर्णय-निर्माण में संघर्ष कर सकती हैं।

भिन्नता ऊँची थी, पर क्षेत्र को बचाने के लिए पर्याप्त नहीं

परिणामों में एक अधिक खुलासा करने वाला विवरण कुछ मॉडलों के सर्वोत्तम और सबसे खराब प्रयासों के बीच का अंतर है। उदाहरण के लिए, Gemini 3.1 Pro ने एक रन में मजबूत लाभ कमाया और दूसरे में पूरी तरह दिवालिया हो गया। यह संकेत देता है कि इस तरह की सेटिंग में मॉडल का व्यवहार अस्थिर हो सकता है, और परिणाम निष्पादन विवरण, अपडेट या आंतरिक निर्णय पैटर्न के प्रति संवेदनशील हो सकते हैं।

उच्च भिन्नता आकर्षक हो सकती है क्योंकि इससे दिखने वाली जीत मिलती है। लेकिन एक सीज़न के दौरान, औसत प्रदर्शन अलग-अलग उछालों से अधिक मायने रखता है। उस माप पर, क्षेत्र का प्रदर्शन खराब रहा। अध्ययन लेखकों ने निष्कर्ष निकाला कि इन प्रणालियों ने इस परिदृश्य में मनुष्यों से व्यवस्थित रूप से कम प्रदर्शन किया।

बेंचमार्क क्या साबित करता है और क्या नहीं

अध्ययन यह तय नहीं करता कि भविष्यवाणी, ट्रेडिंग या निर्णय समर्थन में AI एजेंट कितने सक्षम हो जाएंगे। यह, हालांकि, एक उपयोगी अनुशासन को मजबूत करता है: मॉडल क्षमता के दावों को विशिष्ट वातावरणों से जोड़ा जाना चाहिए, न कि असंबंधित शक्तियों से सामान्यीकृत किया जाना चाहिए। जो मॉडल अच्छा कोड लिखता है, वह जरूरी नहीं कि पूंजी का अच्छा आवंटन भी करे।

जैसे-जैसे कंपनियाँ एआई प्रणालियों को व्यापक रणनीतिक उपकरणों के रूप में पेश कर रही हैं, यह अंतर और अधिक महत्वपूर्ण हो रहा है। KellyBench प्रयोग याद दिलाता है कि दुनिया साफ़-सुथरी भविष्यवाणी का विरोध करती है। अनिश्चितता, प्रोत्साहनों और बदलती जानकारी से आकार लेने वाले क्षेत्रों में, संभाव्य विश्लेषण और लगातार अच्छे निर्णय के बीच का अंतर अब भी बड़ा है।

  • General Reasoning ने एक सीज़न भर Premier League बेटिंग निर्णयों पर आठ AI प्रणालियों का परीक्षण किया।
  • KellyBench रिपोर्ट के अनुसार सभी मॉडलों ने औसतन पैसा गंवाया।
  • परिणाम दिखाते हैं कि कुछ AI कार्यों में मजबूत प्रदर्शन वास्तविक दुनिया में मजबूत पूर्वानुमान की गारंटी नहीं देता।

यह लेख Ars Technica की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.