AI-க்கான இன்னும் கடினமான கணிதத் தேர்வு

SOOHAK எனப்படும் ஒரு புதிய benchmark, பல பிரபல AI மதிப்பீடுகள் தவறவிடும் ஒரு விஷயத்தை அளக்க முயல்கிறது: ஒரு மாதிரி உண்மையாக கடினமான கணிதத்தைப் பற்றிச் சிந்திக்க முடியுமா, மேலும் எப்போது பதில் அளிக்கக் கூடாது என்பதை அது அறிந்திருக்கிறதா என்பதையும். வழங்கப்பட்ட source text படி, இந்த benchmark Carnegie Mellon University, EleutherAI, மற்றும் Seoul National University உள்ளிட்ட குழுக்களைச் சேர்ந்த 64 கணிதவியலாளர்களால் உருவாக்கப்பட்டது.

SOOHAK-இல் 439 அசல் கையெழுத்து பணிகள் உள்ளன. இந்த தொகுப்பு 340-பிரச்சினைகளைக் கொண்ட “Challenge” தொகுப்பாகவும், பட்டமேற்படிப்பு மற்றும் ஆய்வு நிலை கணிதத்துக்காகவும், மேலும் 99-பிரச்சினைகளைக் கொண்ட “Refusal” தொகுப்பாகவும் பிரிக்கப்பட்டுள்ளது; இதில் முரண்பாடுகள் உள்ள அல்லது தெளிவான பதிலுக்குத் தேவையான தகவல் இல்லாத நோக்கமுள்ள தவறான பிரச்சினைகள் அடங்குகின்றன. இரண்டாவது பகுதி மிக அசாதாரணமானது. அது ஒரு மாதிரி விளைவுகளை நம்பிக்கையுடன் சொல்லுவதற்குப் பதிலாக அந்தப் பிரச்சினையே தவறானது என்பதை அடையாளம் காண முடியுமா என்பதை சோதிக்கிறது.

பயிற்சியில் மாதிரிகள் இந்த உள்ளடக்கத்தை ஏற்கனவே பார்த்திருக்க வாய்ப்பைக் குறைக்க உருவாக்குநர்களும் முயன்றனர். source text-இன் படி, ஒவ்வொரு பிரச்சினையும் பாடநூல்கள் அல்லது போட்டி களஞ்சியங்களில் இருந்து எடுக்கப்படாமல், புதிதாக எழுதப்பட்டது. பங்களிப்பாளர்களில் பேராசிரியர்கள், PhD மாணவர்கள், postdocs, மற்றும் International Mathematical Olympiad பதக்க வெற்றியாளர்கள் இருந்தனர்; கேள்விகளை உருவாக்கும்போது AI உதவியைப் பயன்படுத்தவில்லை என்று அவர்கள் உறுதிப்படுத்த வேண்டியிருந்தது.

ஆய்வு நிலை கணிதம் இன்னும் தெளிவான பலவீனம்

அறிக்கையிடப்பட்ட முடிவுகள், பிரச்சினைகள் பரிச்சயமான போட்டி பாணியைத் தாண்டியவுடன் முன்னணி மாதிரிகள் இன்னும் கடுமையாகத் தடுமாறுகின்றன என்பதை காட்டுகின்றன. Challenge தொகுப்பில், Google-ன் Gemini 3 Pro 30% பெற்று முன்னிலை பெற்றது; அதன் பின்னர் GPT-5 வகைகள் 26% பெற்றன. Claude Opus 4.5 10% ஆகக் குறைந்தது, மேலும் Kimi-2.5, Qwen3-235B, GPT-OSS-120B போன்ற open-weight அமைப்புகள் 15%-க்கும் கீழே இருந்தன.

முக்கிய செய்தி ஒரு மாதிரி மற்றொன்றை சற்றே முந்துகிறது என்பதல்ல. இந்த வகை வெளியிடப்படாத, ஆய்வு நிலை பணிகளில் எந்த மாதிரியும் நிலைத்த வலிமை காட்டவில்லை என்பதே. source text-ன் படி, Challenge பிரச்சினைகளில் 124-ஐ எந்த மாதிரியும் தீர்க்க முடியவில்லை. இது frontier mathematical reasoning-இன் உச்சவரம்பு, சமீபத்திய பொதுச் சொற்றொடர்கள் சுட்டிக்காட்டும் olympiad-நிலை திறனை விட இன்னும் மிகவும் குறைவாக இருப்பதை காட்டுகிறது.

எளிதான துணைத் தொகுப்பான SOOHAK-Mini வேறு ஒரு படத்தை காட்டுகிறது. அங்கு முன்னணி அமைப்புகள் ஒருவருக்கொருவர் நெருக்கமாக மதிப்பெண் பெற்று, குறிப்பிடத்தக்க அளவில் உயர்ந்த முடிவுகளைப் பெறுகின்றன. பணிகள் குறைவாக தரநிலைப்படுத்தப்பட்ட, குறைவாக முன்-செயலாக்கப்பட்ட உள்ளடக்கத்திற்குப் போகும்போதுதான் கடும் வீழ்ச்சி தெரிகிறது. source text-ன் படி, இது niche unpublished பிரச்சினைகளுக்கு transfer பலவீனத்தை வெளிப்படுத்தலாம், குறிப்பாக open-weight மாதிரிகளில்.

சொல்லாமல் நிற்கும் திறனும் பிரச்சினையைத் தீர்ப்பதற்குச் சமமாக முக்கியமாக இருக்கலாம்

இந்த benchmark-இன் மிக முக்கியமான பங்களிப்பு அதன் refusal பகுதி இருக்கலாம். நிஜ பயன்பாட்டில், ஒரு AI அமைப்பு சரியான பதிலை எத்தனை முறை அளிக்கிறது என்பதிலேயே மதிப்பிடப்படுவதில்லை. கேள்வி தவறாக அமைந்ததா, முரண்பாடுகளா, அல்லது கொடுக்கப்பட்ட தகவலுடன் பதிலளிக்க முடியாததா என்பதை அது அறிகிறதா என்பதையும் பார்க்க வேண்டும். SOOHAK அதை முதன்மை திறனாகக் கருதுகிறது.

இங்கேயும் முடிவுகள் பலவீனமாகவே இருந்தன. வழங்கப்பட்ட source text-ன் படி, சிறந்த மாதிரிகூட unsolvable பிரச்சினைகளை அடையாளம் காணும் திறனில் 50%-க்கு கீழே இருந்தது. அதாவது முன்னணி அமைப்புகள் இன்னும் அடிக்கடி ஊகிக்க விரும்புகின்றன, missing assumption அல்லது முரண்பாடு இருப்பதை அடையாளம் காண்பதற்குப் பதிலாக. நடைமுறையில், இது வெளிப்படையான கணக்குப் பிழையைவிட அதிக ஆபத்தானது, ஏனெனில் இது கட்டமைப்பில் தவறானதாக இருந்தும் நம்பிக்கைமிக்கதாகத் தோன்றலாம்.

AI மதிப்பீட்டில் இது மீண்டும் மீண்டும் காணப்படும் முறை. மாதிரிகள் பரிச்சயமான benchmark-களில் முன்னேறும் போது, benchmark தானே மிகக் கடினமான மீதமுள்ள தவறுகளை பிரதிபலிக்காமல் போகலாம். SOOHAK-இன் நோக்கம், coverage மற்றும் memorization ஆதிக்கம் செலுத்தும் leaderboards-இலிருந்து துறையை abstraction, novelty, மற்றும் epistemic restraint சோதனைகளுக்கு நகர்த்துவதாகத் தோன்றுகிறது.

இந்த benchmark ஏன் தனித்து நிற்கிறது

  • மீண்டும் பயன்படுத்தப்பட்ட பாடநூல் அல்லது போட்டி பொருட்களுக்குப் பதிலாக அசல் பணிகளைப் பயன்படுத்துகிறது.
  • சாதாரண problem solving-ஐ refusal நடத்தைமுறையிலிருந்து பிரிக்கிறது.
  • பள்ளி அல்லது olympiad கணிதத்தை மட்டும் அல்லாமல் ஆய்வு நிலை கடினத்தன்மையையே கவனிக்கிறது.
  • எளிதான benchmark தொகுப்புகளில் நல்ல செயல்திறன் மேல்நிலையில் தானாக நகராது என்பதை இது காட்டுகிறது.

அறிக்கையிடப்பட்ட முடிவுகள் விரிவான ஆய்விலும் நிலைத்திருந்தால், SOOHAK அதிகம் நிரம்பிய கணித மதிப்பீடுகளுக்கு ஒரு பயனுள்ள எதிர்நிலை ஆகலாம். உருவாக்குநர்களுக்குப் பார்க்கும்போது, இது இன்னும் தீர்க்கப்படாத இரண்டு பிரச்சனைகளை சுட்டுகிறது: frontier மாதிரிகள் இன்னும் பரிச்சயமற்ற உயர்நிலை கணிதத்தில் தடுமாறுகின்றன, மேலும் பதிலளிக்கக்கூடாத போது ஏன் பதில் இல்லை என்பதை விளக்கி நிற்க வேண்டிய இடத்திலும் அடிக்கடி பதிலளிக்கின்றன.

இந்த இணைப்பு கணிதத்தைத் தாண்டியும் முக்கியமானது. தீர்க்கக்கூடிய மற்றும் தீர்க்க முடியாத கோரிக்கைகளை நம்பகமாக வேறுபடுத்த முடியாத அமைப்புகள், சட்டம், அறிவியல், பொறியியல், மற்றும் கொள்கை பகுப்பாய்விலும் அதே வகை தவறுகளைச் செய்ய வாய்ப்புள்ளது. SOOHAK AI கடினமான பிரச்சனைகளைத் தீர்க்குமா என்பதைக் கேட்பதில்லை. அது AI தன் அறிவின் எல்லைகளை உணர முடியுமா என்பதைக் கேட்கிறது.

இந்தக் கட்டுரை The Decoder-இன் செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com