SOOHAK बेंचमार्क AI की कठिन गणित और अनसुलझी समस्याओं पर परीक्षा लेता है

AI के लिए एक कठिन तरह का गणित परीक्षण

SOOHAK नाम का एक नया बेंचमार्क यह मापने की कोशिश कर रहा है कि कई लोकप्रिय AI मूल्यांकन क्या चूक जाते हैं: क्या कोई मॉडल वास्तव में कठिन गणित पर तर्क कर सकता है, और क्या वह जानता है कि उसे कब जवाब नहीं देना चाहिए। दिए गए source text के अनुसार, यह बेंचमार्क Carnegie Mellon University, EleutherAI, और Seoul National University सहित समूहों के 64 गणितज्ञों के एक consortium द्वारा बनाया गया था।

SOOHAK में 439 मूल हस्तलिखित कार्य हैं। संग्रह को 340-समस्या वाले “Challenge” सेट में बाँटा गया है, जो स्नातक और शोध-स्तर के गणित के लिए है, और 99-समस्या वाले “Refusal” सेट में, जिसमें जानबूझकर त्रुटिपूर्ण समस्याएँ हैं जिनमें विरोधाभास हैं या स्पष्ट उत्तर के लिए पर्याप्त जानकारी नहीं है। दूसरा भाग अधिक असामान्य है। यह जाँचता है कि क्या कोई मॉडल परिणाम गढ़ने के बजाय यह पहचान सकता है कि कार्य ही त्रुटिपूर्ण है।

बेंचमार्क के निर्माताओं ने यह संभावना कम करने की भी कोशिश की कि मॉडलों ने प्रशिक्षण के दौरान पहले ही सामग्री देख ली हो। source text कहता है कि हर समस्या शून्य से लिखी गई, न कि पाठ्यपुस्तकों या प्रतियोगी अभिलेखों से ली गई। योगदानकर्ताओं में प्रोफेसर, PhD छात्र, पोस्टडॉक, और International Mathematical Olympiad पदक विजेता शामिल थे, और उन्हें यह पुष्टि करनी थी कि प्रश्न तैयार करते समय उन्होंने AI सहायता का उपयोग नहीं किया।

शोध-स्तरीय गणित अभी भी एक स्पष्ट कमजोरी है

रिपोर्ट किए गए परिणाम दिखाते हैं कि समस्याएँ प्रतियोगी शैली से आगे बढ़ते ही उन्नत मॉडल अभी भी बुरी तरह संघर्ष करते हैं। Challenge सेट पर, Google का Gemini 3 Pro 30% के साथ सबसे आगे रहा, उसके बाद GPT-5 वेरिएंट 26% पर रहे। Claude Opus 4.5 गिरकर 10% पर आ गया, जबकि Kimi-2.5, Qwen3-235B, और GPT-OSS-120B जैसे open-weight सिस्टम 15% से नीचे रहे।

मुख्य बात यह नहीं है कि कोई एक मॉडल दूसरे से थोड़ा आगे है। बात यह है कि इस प्रकार के अप्रकाशित, शोध-स्तरीय कार्य पर कोई भी मॉडल लगातार मजबूत नहीं है। source text कहता है कि Challenge की 124 समस्याओं में से एक भी मॉडल हल नहीं कर सका। इससे पता चलता है कि frontier mathematical reasoning की सीमा हाल की सार्वजनिक कथाओं में मानी गई olympiad-स्तरीय क्षमता से अभी भी काफी नीचे है।

आसान सहायक सेट, SOOHAK-Mini, एक अलग तस्वीर दिखाता है। वहाँ शीर्ष सिस्टम एक-दूसरे के करीब स्कोर करते हैं और काफी अधिक अंक लाते हैं। तेज गिरावट तभी आती है जब कार्य कम मानकीकृत, कम पूर्व-प्रसंस्कृत सामग्री में जाते हैं। source text के अनुसार, बेंचमार्क के लेखक तर्क देते हैं कि यह niche unpublished समस्याओं पर कमज़ोर transfer को उजागर कर सकता है, विशेष रूप से open-weight मॉडलों में।

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAI ने इन्फ्रास्ट्रक्चर काम और लंबे उपभोक्ता विजन के इर्द-गिर्द रोबोटिक्स को फिर से खड़ा किया है

OpenAI ने अपनी रोबोटिक्स टीम को फिर से बनाया है, शुरुआत इन्फ्रास्ट्रक्चर कार्यों से करते हुए, जबकि CEO Sam Altman एक लंबे समय के लक्ष्य के रूप में सभी के लिए निजी रोबोटों की बात कर रहे हैं।

Read article

समझदारी से मना करने की क्षमता हल करने जितनी ही महत्वपूर्ण हो सकती है

बेंचमार्क का सबसे महत्वपूर्ण योगदान उसका refusal section हो सकता है। वास्तविक उपयोग में, AI सिस्टम का मूल्यांकन सिर्फ इस बात से नहीं होता कि वह कितनी बार सही उत्तर देता है। यह इस बात से भी होता है कि क्या वह पहचान पाता है कि अनुरोध अधूरा, विरोधाभासी, या दी गई जानकारी से उत्तर देने योग्य नहीं है। SOOHAK इसे एक प्रथम-स्तरीय क्षमता मानता है।

यहाँ भी परिणाम कमजोर रहे। दिए गए source text के अनुसार, सबसे अच्छा मॉडल भी unsolvable समस्याओं को पहचानने में 50% से नीचे रहा। इसका मतलब है कि अग्रणी सिस्टम अभी भी अक्सर यह पहचानने के बजाय अनुमान लगाना पसंद करते हैं कि कोई मान्य धारणा गायब है या विरोधाभास मौजूद है। व्यवहार में, यह एक दृश्य गणना त्रुटि से अधिक खतरनाक है, क्योंकि यह संरचनात्मक रूप से गलत होते हुए भी आत्मविश्वासपूर्ण लग सकता है।

यह AI मूल्यांकन में बार-बार आने वाला पैटर्न है। जैसे-जैसे मॉडल परिचित बेंचमार्क पर बेहतर होते जाते हैं, बेंचमार्क खुद सबसे कठिन शेष विफलताओं को दर्शाना बंद कर सकता है। SOOHAK का उद्देश्य प्रतीत होता है कि वह कवरेज और memorization-प्रधान लीडरबोर्ड से क्षेत्र को दूर ले जाकर abstraction, novelty, और epistemic restraint की परीक्षा की ओर धकेले।

यह बेंचमार्क क्यों अलग दिखता है

यह पुनः उपयोग किए गए पाठ्यपुस्तक या प्रतियोगी सामग्री के बजाय मूल कार्यों का उपयोग करता है।
यह सामान्य समस्या-समाधान को refusal व्यवहार से अलग करता है।
यह केवल स्कूल या ओलंपियाड गणित के बजाय शोध-स्तर की कठिनाई पर केंद्रित है।
यह दिखाता है कि आसान बेंचमार्क सेट पर अच्छा प्रदर्शन ऊपर तक स्वतः नहीं पहुँचता।

यदि रिपोर्ट किए गए परिणाम व्यापक जांच में टिके रहते हैं, तो SOOHAK increasingly saturated math evaluations के लिए एक उपयोगी प्रतिपक्ष बन सकता है। डेवलपर्स के लिए, यह दो अनसुलझी समस्याओं की ओर इशारा करता है: frontier models अभी भी अपरिचित उच्च-स्तरीय गणित पर अटक जाते हैं, और वे अभी भी बहुत बार तब उत्तर दे देते हैं जब उन्हें रुककर बताना चाहिए कि उत्तर संभव क्यों नहीं है।

यह संयोजन गणित से कहीं आगे मायने रखता है। जो सिस्टम हल होने योग्य और न हो सकने वाले अनुरोधों में विश्वसनीय अंतर नहीं कर पाते, वे कानून, विज्ञान, इंजीनियरिंग, और नीति विश्लेषण में भी इसी तरह की गलतियाँ करेंगे। SOOHAK केवल यह नहीं पूछता कि क्या AI कठिन समस्याएँ हल कर सकता है। यह पूछता है कि क्या AI अपनी जानकारी की सीमाओं को पहचान सकता है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

Anthropic के एक अध्ययन में सामाजिक विज्ञान में कोडिंग-एजेंट अपनाने में बड़े अंतर पाए गए, जो लिंग, क्षेत्र, करियर चरण और विश्वविद्यालय रैंक के आधार पर बदलते हैं।

Read article

Originally published on the-decoder.com