AI के लिए एक कठिन तरह का गणित परीक्षण
SOOHAK नाम का एक नया बेंचमार्क यह मापने की कोशिश कर रहा है कि कई लोकप्रिय AI मूल्यांकन क्या चूक जाते हैं: क्या कोई मॉडल वास्तव में कठिन गणित पर तर्क कर सकता है, और क्या वह जानता है कि उसे कब जवाब नहीं देना चाहिए। दिए गए source text के अनुसार, यह बेंचमार्क Carnegie Mellon University, EleutherAI, और Seoul National University सहित समूहों के 64 गणितज्ञों के एक consortium द्वारा बनाया गया था।
SOOHAK में 439 मूल हस्तलिखित कार्य हैं। संग्रह को 340-समस्या वाले “Challenge” सेट में बाँटा गया है, जो स्नातक और शोध-स्तर के गणित के लिए है, और 99-समस्या वाले “Refusal” सेट में, जिसमें जानबूझकर त्रुटिपूर्ण समस्याएँ हैं जिनमें विरोधाभास हैं या स्पष्ट उत्तर के लिए पर्याप्त जानकारी नहीं है। दूसरा भाग अधिक असामान्य है। यह जाँचता है कि क्या कोई मॉडल परिणाम गढ़ने के बजाय यह पहचान सकता है कि कार्य ही त्रुटिपूर्ण है।
बेंचमार्क के निर्माताओं ने यह संभावना कम करने की भी कोशिश की कि मॉडलों ने प्रशिक्षण के दौरान पहले ही सामग्री देख ली हो। source text कहता है कि हर समस्या शून्य से लिखी गई, न कि पाठ्यपुस्तकों या प्रतियोगी अभिलेखों से ली गई। योगदानकर्ताओं में प्रोफेसर, PhD छात्र, पोस्टडॉक, और International Mathematical Olympiad पदक विजेता शामिल थे, और उन्हें यह पुष्टि करनी थी कि प्रश्न तैयार करते समय उन्होंने AI सहायता का उपयोग नहीं किया।
शोध-स्तरीय गणित अभी भी एक स्पष्ट कमजोरी है
रिपोर्ट किए गए परिणाम दिखाते हैं कि समस्याएँ प्रतियोगी शैली से आगे बढ़ते ही उन्नत मॉडल अभी भी बुरी तरह संघर्ष करते हैं। Challenge सेट पर, Google का Gemini 3 Pro 30% के साथ सबसे आगे रहा, उसके बाद GPT-5 वेरिएंट 26% पर रहे। Claude Opus 4.5 गिरकर 10% पर आ गया, जबकि Kimi-2.5, Qwen3-235B, और GPT-OSS-120B जैसे open-weight सिस्टम 15% से नीचे रहे।
मुख्य बात यह नहीं है कि कोई एक मॉडल दूसरे से थोड़ा आगे है। बात यह है कि इस प्रकार के अप्रकाशित, शोध-स्तरीय कार्य पर कोई भी मॉडल लगातार मजबूत नहीं है। source text कहता है कि Challenge की 124 समस्याओं में से एक भी मॉडल हल नहीं कर सका। इससे पता चलता है कि frontier mathematical reasoning की सीमा हाल की सार्वजनिक कथाओं में मानी गई olympiad-स्तरीय क्षमता से अभी भी काफी नीचे है।
आसान सहायक सेट, SOOHAK-Mini, एक अलग तस्वीर दिखाता है। वहाँ शीर्ष सिस्टम एक-दूसरे के करीब स्कोर करते हैं और काफी अधिक अंक लाते हैं। तेज गिरावट तभी आती है जब कार्य कम मानकीकृत, कम पूर्व-प्रसंस्कृत सामग्री में जाते हैं। source text के अनुसार, बेंचमार्क के लेखक तर्क देते हैं कि यह niche unpublished समस्याओं पर कमज़ोर transfer को उजागर कर सकता है, विशेष रूप से open-weight मॉडलों में।
समझदारी से मना करने की क्षमता हल करने जितनी ही महत्वपूर्ण हो सकती है
बेंचमार्क का सबसे महत्वपूर्ण योगदान उसका refusal section हो सकता है। वास्तविक उपयोग में, AI सिस्टम का मूल्यांकन सिर्फ इस बात से नहीं होता कि वह कितनी बार सही उत्तर देता है। यह इस बात से भी होता है कि क्या वह पहचान पाता है कि अनुरोध अधूरा, विरोधाभासी, या दी गई जानकारी से उत्तर देने योग्य नहीं है। SOOHAK इसे एक प्रथम-स्तरीय क्षमता मानता है।
यहाँ भी परिणाम कमजोर रहे। दिए गए source text के अनुसार, सबसे अच्छा मॉडल भी unsolvable समस्याओं को पहचानने में 50% से नीचे रहा। इसका मतलब है कि अग्रणी सिस्टम अभी भी अक्सर यह पहचानने के बजाय अनुमान लगाना पसंद करते हैं कि कोई मान्य धारणा गायब है या विरोधाभास मौजूद है। व्यवहार में, यह एक दृश्य गणना त्रुटि से अधिक खतरनाक है, क्योंकि यह संरचनात्मक रूप से गलत होते हुए भी आत्मविश्वासपूर्ण लग सकता है।
यह AI मूल्यांकन में बार-बार आने वाला पैटर्न है। जैसे-जैसे मॉडल परिचित बेंचमार्क पर बेहतर होते जाते हैं, बेंचमार्क खुद सबसे कठिन शेष विफलताओं को दर्शाना बंद कर सकता है। SOOHAK का उद्देश्य प्रतीत होता है कि वह कवरेज और memorization-प्रधान लीडरबोर्ड से क्षेत्र को दूर ले जाकर abstraction, novelty, और epistemic restraint की परीक्षा की ओर धकेले।
यह बेंचमार्क क्यों अलग दिखता है
- यह पुनः उपयोग किए गए पाठ्यपुस्तक या प्रतियोगी सामग्री के बजाय मूल कार्यों का उपयोग करता है।
- यह सामान्य समस्या-समाधान को refusal व्यवहार से अलग करता है।
- यह केवल स्कूल या ओलंपियाड गणित के बजाय शोध-स्तर की कठिनाई पर केंद्रित है।
- यह दिखाता है कि आसान बेंचमार्क सेट पर अच्छा प्रदर्शन ऊपर तक स्वतः नहीं पहुँचता।
यदि रिपोर्ट किए गए परिणाम व्यापक जांच में टिके रहते हैं, तो SOOHAK increasingly saturated math evaluations के लिए एक उपयोगी प्रतिपक्ष बन सकता है। डेवलपर्स के लिए, यह दो अनसुलझी समस्याओं की ओर इशारा करता है: frontier models अभी भी अपरिचित उच्च-स्तरीय गणित पर अटक जाते हैं, और वे अभी भी बहुत बार तब उत्तर दे देते हैं जब उन्हें रुककर बताना चाहिए कि उत्तर संभव क्यों नहीं है।
यह संयोजन गणित से कहीं आगे मायने रखता है। जो सिस्टम हल होने योग्य और न हो सकने वाले अनुरोधों में विश्वसनीय अंतर नहीं कर पाते, वे कानून, विज्ञान, इंजीनियरिंग, और नीति विश्लेषण में भी इसी तरह की गलतियाँ करेंगे। SOOHAK केवल यह नहीं पूछता कि क्या AI कठिन समस्याएँ हल कर सकता है। यह पूछता है कि क्या AI अपनी जानकारी की सीमाओं को पहचान सकता है।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com





