SOOHAK benchmark AI-யின் கடின கணிதம் மற்றும் தீர்வில்லா பிரச்சினைகளைச் சோதிக்கிறது

AI-க்கான இன்னும் கடினமான கணிதத் தேர்வு

SOOHAK எனப்படும் ஒரு புதிய benchmark, பல பிரபல AI மதிப்பீடுகள் தவறவிடும் ஒரு விஷயத்தை அளக்க முயல்கிறது: ஒரு மாதிரி உண்மையாக கடினமான கணிதத்தைப் பற்றிச் சிந்திக்க முடியுமா, மேலும் எப்போது பதில் அளிக்கக் கூடாது என்பதை அது அறிந்திருக்கிறதா என்பதையும். வழங்கப்பட்ட source text படி, இந்த benchmark Carnegie Mellon University, EleutherAI, மற்றும் Seoul National University உள்ளிட்ட குழுக்களைச் சேர்ந்த 64 கணிதவியலாளர்களால் உருவாக்கப்பட்டது.

SOOHAK-இல் 439 அசல் கையெழுத்து பணிகள் உள்ளன. இந்த தொகுப்பு 340-பிரச்சினைகளைக் கொண்ட “Challenge” தொகுப்பாகவும், பட்டமேற்படிப்பு மற்றும் ஆய்வு நிலை கணிதத்துக்காகவும், மேலும் 99-பிரச்சினைகளைக் கொண்ட “Refusal” தொகுப்பாகவும் பிரிக்கப்பட்டுள்ளது; இதில் முரண்பாடுகள் உள்ள அல்லது தெளிவான பதிலுக்குத் தேவையான தகவல் இல்லாத நோக்கமுள்ள தவறான பிரச்சினைகள் அடங்குகின்றன. இரண்டாவது பகுதி மிக அசாதாரணமானது. அது ஒரு மாதிரி விளைவுகளை நம்பிக்கையுடன் சொல்லுவதற்குப் பதிலாக அந்தப் பிரச்சினையே தவறானது என்பதை அடையாளம் காண முடியுமா என்பதை சோதிக்கிறது.

பயிற்சியில் மாதிரிகள் இந்த உள்ளடக்கத்தை ஏற்கனவே பார்த்திருக்க வாய்ப்பைக் குறைக்க உருவாக்குநர்களும் முயன்றனர். source text-இன் படி, ஒவ்வொரு பிரச்சினையும் பாடநூல்கள் அல்லது போட்டி களஞ்சியங்களில் இருந்து எடுக்கப்படாமல், புதிதாக எழுதப்பட்டது. பங்களிப்பாளர்களில் பேராசிரியர்கள், PhD மாணவர்கள், postdocs, மற்றும் International Mathematical Olympiad பதக்க வெற்றியாளர்கள் இருந்தனர்; கேள்விகளை உருவாக்கும்போது AI உதவியைப் பயன்படுத்தவில்லை என்று அவர்கள் உறுதிப்படுத்த வேண்டியிருந்தது.

ஆய்வு நிலை கணிதம் இன்னும் தெளிவான பலவீனம்

அறிக்கையிடப்பட்ட முடிவுகள், பிரச்சினைகள் பரிச்சயமான போட்டி பாணியைத் தாண்டியவுடன் முன்னணி மாதிரிகள் இன்னும் கடுமையாகத் தடுமாறுகின்றன என்பதை காட்டுகின்றன. Challenge தொகுப்பில், Google-ன் Gemini 3 Pro 30% பெற்று முன்னிலை பெற்றது; அதன் பின்னர் GPT-5 வகைகள் 26% பெற்றன. Claude Opus 4.5 10% ஆகக் குறைந்தது, மேலும் Kimi-2.5, Qwen3-235B, GPT-OSS-120B போன்ற open-weight அமைப்புகள் 15%-க்கும் கீழே இருந்தன.

முக்கிய செய்தி ஒரு மாதிரி மற்றொன்றை சற்றே முந்துகிறது என்பதல்ல. இந்த வகை வெளியிடப்படாத, ஆய்வு நிலை பணிகளில் எந்த மாதிரியும் நிலைத்த வலிமை காட்டவில்லை என்பதே. source text-ன் படி, Challenge பிரச்சினைகளில் 124-ஐ எந்த மாதிரியும் தீர்க்க முடியவில்லை. இது frontier mathematical reasoning-இன் உச்சவரம்பு, சமீபத்திய பொதுச் சொற்றொடர்கள் சுட்டிக்காட்டும் olympiad-நிலை திறனை விட இன்னும் மிகவும் குறைவாக இருப்பதை காட்டுகிறது.

எளிதான துணைத் தொகுப்பான SOOHAK-Mini வேறு ஒரு படத்தை காட்டுகிறது. அங்கு முன்னணி அமைப்புகள் ஒருவருக்கொருவர் நெருக்கமாக மதிப்பெண் பெற்று, குறிப்பிடத்தக்க அளவில் உயர்ந்த முடிவுகளைப் பெறுகின்றன. பணிகள் குறைவாக தரநிலைப்படுத்தப்பட்ட, குறைவாக முன்-செயலாக்கப்பட்ட உள்ளடக்கத்திற்குப் போகும்போதுதான் கடும் வீழ்ச்சி தெரிகிறது. source text-ன் படி, இது niche unpublished பிரச்சினைகளுக்கு transfer பலவீனத்தை வெளிப்படுத்தலாம், குறிப்பாக open-weight மாதிரிகளில்.

How we used Gemini to build Google I/O 2026

Google, I/O 2026-ஐ உருவாக்க Gemini எவ்வாறு உதவியது என்பதை விவரிக்கிறது

Google, Google I/O 2026-க்கான திரைப்படங்கள், காட்சிகள், மற்றும் நிகழ்வு கூறுகளை உருவாக்க Gemini மற்றும் பிற AI கருவிகளை அணிகள் பயன்படுத்தினதாக கூறுகிறது; இந்த மாநாட்டை AI உதவியுடன் செய்யப்பட்ட உற்பத்தியின் உள்நாட்டு எடுத்துக்காட்டாக அது முன்வைக்கிறது.

Read article

சொல்லாமல் நிற்கும் திறனும் பிரச்சினையைத் தீர்ப்பதற்குச் சமமாக முக்கியமாக இருக்கலாம்

இந்த benchmark-இன் மிக முக்கியமான பங்களிப்பு அதன் refusal பகுதி இருக்கலாம். நிஜ பயன்பாட்டில், ஒரு AI அமைப்பு சரியான பதிலை எத்தனை முறை அளிக்கிறது என்பதிலேயே மதிப்பிடப்படுவதில்லை. கேள்வி தவறாக அமைந்ததா, முரண்பாடுகளா, அல்லது கொடுக்கப்பட்ட தகவலுடன் பதிலளிக்க முடியாததா என்பதை அது அறிகிறதா என்பதையும் பார்க்க வேண்டும். SOOHAK அதை முதன்மை திறனாகக் கருதுகிறது.

இங்கேயும் முடிவுகள் பலவீனமாகவே இருந்தன. வழங்கப்பட்ட source text-ன் படி, சிறந்த மாதிரிகூட unsolvable பிரச்சினைகளை அடையாளம் காணும் திறனில் 50%-க்கு கீழே இருந்தது. அதாவது முன்னணி அமைப்புகள் இன்னும் அடிக்கடி ஊகிக்க விரும்புகின்றன, missing assumption அல்லது முரண்பாடு இருப்பதை அடையாளம் காண்பதற்குப் பதிலாக. நடைமுறையில், இது வெளிப்படையான கணக்குப் பிழையைவிட அதிக ஆபத்தானது, ஏனெனில் இது கட்டமைப்பில் தவறானதாக இருந்தும் நம்பிக்கைமிக்கதாகத் தோன்றலாம்.

AI மதிப்பீட்டில் இது மீண்டும் மீண்டும் காணப்படும் முறை. மாதிரிகள் பரிச்சயமான benchmark-களில் முன்னேறும் போது, benchmark தானே மிகக் கடினமான மீதமுள்ள தவறுகளை பிரதிபலிக்காமல் போகலாம். SOOHAK-இன் நோக்கம், coverage மற்றும் memorization ஆதிக்கம் செலுத்தும் leaderboards-இலிருந்து துறையை abstraction, novelty, மற்றும் epistemic restraint சோதனைகளுக்கு நகர்த்துவதாகத் தோன்றுகிறது.

இந்த benchmark ஏன் தனித்து நிற்கிறது

மீண்டும் பயன்படுத்தப்பட்ட பாடநூல் அல்லது போட்டி பொருட்களுக்குப் பதிலாக அசல் பணிகளைப் பயன்படுத்துகிறது.
சாதாரண problem solving-ஐ refusal நடத்தைமுறையிலிருந்து பிரிக்கிறது.
பள்ளி அல்லது olympiad கணிதத்தை மட்டும் அல்லாமல் ஆய்வு நிலை கடினத்தன்மையையே கவனிக்கிறது.
எளிதான benchmark தொகுப்புகளில் நல்ல செயல்திறன் மேல்நிலையில் தானாக நகராது என்பதை இது காட்டுகிறது.

அறிக்கையிடப்பட்ட முடிவுகள் விரிவான ஆய்விலும் நிலைத்திருந்தால், SOOHAK அதிகம் நிரம்பிய கணித மதிப்பீடுகளுக்கு ஒரு பயனுள்ள எதிர்நிலை ஆகலாம். உருவாக்குநர்களுக்குப் பார்க்கும்போது, இது இன்னும் தீர்க்கப்படாத இரண்டு பிரச்சனைகளை சுட்டுகிறது: frontier மாதிரிகள் இன்னும் பரிச்சயமற்ற உயர்நிலை கணிதத்தில் தடுமாறுகின்றன, மேலும் பதிலளிக்கக்கூடாத போது ஏன் பதில் இல்லை என்பதை விளக்கி நிற்க வேண்டிய இடத்திலும் அடிக்கடி பதிலளிக்கின்றன.

இந்த இணைப்பு கணிதத்தைத் தாண்டியும் முக்கியமானது. தீர்க்கக்கூடிய மற்றும் தீர்க்க முடியாத கோரிக்கைகளை நம்பகமாக வேறுபடுத்த முடியாத அமைப்புகள், சட்டம், அறிவியல், பொறியியல், மற்றும் கொள்கை பகுப்பாய்விலும் அதே வகை தவறுகளைச் செய்ய வாய்ப்புள்ளது. SOOHAK AI கடினமான பிரச்சனைகளைத் தீர்க்குமா என்பதைக் கேட்பதில்லை. அது AI தன் அறிவின் எல்லைகளை உணர முடியுமா என்பதைக் கேட்கிறது.

இந்தக் கட்டுரை The Decoder-இன் செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

இன்ஃப்ராஸ்ட்ரக்சர் பணிகளையும் நீண்டகால நுகர்வோர் காட்சியையும் மையமாகக் கொண்டு OpenAI ரோபோட்டிக்ஸை மீண்டும் கட்டமைக்கிறது

OpenAI தனது ரோபோட்டிக்ஸ் அணியை மீண்டும் அமைத்துள்ளது; தொடக்கம் இன்ஃப்ராஸ்ட்ரக்சர் பணிகளுடன், CEO Sam Altman அனைவருக்கும் தனிப்பட்ட ரோபோட் என்ற நீண்டகால இலக்கை விவரிக்கிறார்.

Read article

Originally published on the-decoder.com

AI-க்கான இன்னும் கடினமான கணிதத் தேர்வு

ஆய்வு நிலை கணிதம் இன்னும் தெளிவான பலவீனம்

Google, I/O 2026-ஐ உருவாக்க Gemini எவ்வாறு உதவியது என்பதை விவரிக்கிறது

சொல்லாமல் நிற்கும் திறனும் பிரச்சினையைத் தீர்ப்பதற்குச் சமமாக முக்கியமாக இருக்கலாம்

இந்த benchmark ஏன் தனித்து நிற்கிறது

Comments (0)

Related Articles

வேட்பாளர்களை சோதிக்க Anthropic நேர்முகத் தேர்வுகளில் AI கருவிகளைத் தடை செய்கிறது

Keep Reading