Parameter Golf AI agents ML research-ஐ எவ்வாறு மாற்றுகின்றன என்பதை எடுத்துக்காட்டுகிறது

மாதிரிகளைவிட அதிகமானவற்றை சோதிக்க உருவாக்கப்பட்ட ஒரு போட்டி

Machine learning போட்டிகள் பொதுவாக செயல்திறனை அளக்கும். வழங்கப்பட்ட source text-ல் விவரிக்கப்பட்டுள்ள OpenAI-இன் Parameter Golf சவால், அதைவிட வெளிப்படையான ஒன்றை செய்தது: AI coding agents தொழில்நுட்ப ஆராய்ச்சி நடத்தப்படும், வேகப்படுத்தப்படும், மதிப்பாய்வு செய்யப்படும், மற்றும் hatta தீர்மானிக்கப்படும் முறையையே மாற்றத் தொடங்கியுள்ளன என்பதை அது வெளிப்படுத்தியது.

இந்த சவாலில் எட்டு வாரங்களில் 1,000-க்கும் மேற்பட்ட பங்கேற்பாளர்கள் மற்றும் 2,000-க்கும் மேற்பட்ட சமர்ப்பிப்புகள் வந்தன. பங்கேற்பாளர்களிடம் ஒரு நிலையான FineWeb dataset-இல் held-out loss-ஐ குறைக்குமாறு கேட்டுக்கொள்ளப்பட்டது; ஆனால் மிக இறுக்கமான கட்டுப்பாடுகளுக்குள்: model weights மற்றும் training code இரண்டையும் சேர்த்த 16 MB artifact வரம்பு, மேலும் 8xH100s-ல் 10 நிமிட training budget. OpenAI ஒரு baseline, dataset, மற்றும் evaluation scripts-ஐ வழங்கியது, இதனால் பங்கேற்பாளர்கள் repository-ஐ fork செய்து, model-ஐ மேம்படுத்தி, GitHub மூலம் results submit செய்ய முடிந்தது.

இந்த அமைப்பு முக்கியமானது, ஏனெனில் சக்திவாய்ந்த coding agents-க்கு அணுகல் இருக்கும்போது researchers எப்படி வேலை செய்கிறார்கள் என்பதை கண்காணிக்க ஒரு கட்டுப்படுத்தப்பட்ட சூழலாக போட்டியை மாற்றியது. கிடைத்த பாடம் teams வேகமாக நகர முடியும் என்பதுமட்டுமல்ல. பரிசோதனையின் வடிவமே மாறிக்கொண்டிருக்கிறது என்பதுதான்.

போட்டி வடிவம் ஏன் இவ்வளவு வெளிப்படையாக இருந்தது

Parameter Golf ஒரு பிரச்சினையை மையமாகக் கொண்டு வடிவமைக்கப்பட்டது; அதை கூறுவது எளிது, ஆனால் கட்டுப்பாடுகளுக்குள் நன்றாகத் தீர்ப்பது கடினம். artifact மிகச் சிறியதாக இருக்க வேண்டியது. training window குறுகியதாக இருக்க வேண்டியது. வெற்றி brute-force scaling-இல் அல்ல, மாறாக technical taste-இல் சார்ந்தது: optimizer choices, compression strategy, architecture decisions, மற்றும் disciplined iteration.

அத்தகைய சூழலில்தான் coding agents மிகப் பெரிய தாக்கத்தை ஏற்படுத்த முடியும். search space விரிவாக இருந்தாலும் objective தெளிவாக இருந்தால், agents கருத்துகளை சோதிப்பது, experiments-ஐ இணைப்பது, மற்றும் இல்லையெனில் மிகச் சலிப்பானதாக இருக்கக்கூடிய variations-ஐ பரிசோதிப்பது ஆகியவற்றின் சுமையைக் குறைக்க முடியும்.

Source text-ன் படி பல submissions careful optimizer tuning, quantization work, புதிய modeling ideas, மற்றும் test-time training ஆகியவற்றைக் காட்டின. போட்டியில் மிகவும் உற்சாகமளித்த அம்சங்களில் ஒன்று பங்கேற்பாளர்கள் AI coding agents-ஐ எவ்வளவு பரவலாகப் பயன்படுத்தினார்கள் என்பதுதான் என்றும் அது கூறுகிறது. அந்த agents experimentation-ன் செலவைக் குறைத்தன, அதிகமானோர் பங்கேற்பதை எளிதாக்கின, மற்றும் போட்டியின் வேகத்தை மாற்றின.

இது முக்கியமான கூற்று, ஏனெனில் AI tools-ஐ உற்பத்தித்திறன் உதவிகளாக மட்டுமே பார்க்கும் பொதுவான framing-ஐ இது தாண்டுகிறது. இந்த விவரிப்பில், agents போட்டியின் tempo-வையும் வேலைக்கான அணுகலையும் மாற்றின. அவர்கள் சிறந்த போட்டியாளர்களை வேகமாகச் செல்ல மட்டும் உதவவில்லை. அவர்கள் field-ஐ விரிவாக்கி, iteration எப்படிச் நடந்தது என்பதையும் மாற்றினர்.

More in AI & Robotics

Thinking Machines Lab உரையாடலை மையமாகக் கொண்ட ஒரு நேரடி பல்மாதிரி மாதிரியை அறிமுகப்படுத்துகிறது

மீரா முராட்டியின் ஸ்டார்ட்அப் தனது முதல் மாதிரியை வெளியிட்டுள்ளது. குரல் ஏஐ கடுமையான முறைமாற்றக் காத்திருப்பை விட, உரையாடல் நடைபெறும் போதே அதை செயலாக்க வேண்டும் என்று அது வாதிடுகிறது.

Read article

நன்மை: அதிக experimentation, அதிக creativity, அதிக அணுகல்

இந்த முடிவுகளுக்கு ஒரு தெளிவான சாதகமான வாசிப்பு உள்ளது. நன்றாக வடிவமைக்கப்பட்ட ஒரு சவால் 1,000-க்கும் மேற்பட்ட பங்கேற்பாளர்கள் மற்றும் 2,000 சமர்ப்பிப்புகளை ஈர்க்க முடிந்தால், மேலும் coding agents உயர்தர experimentation-க்கு உள்ள தடையைக் குறைக்க முடிந்தால், அதிகமானோர் research-like workflows-க்கு அர்த்தமுள்ள யோசனைகளை வழங்க முடியும்.

Source text சமர்ப்பிப்புகளில் technical breadth மற்றும் creativity-ஐ வலியுறுத்துகிறது. இது முக்கியம், ஏனெனில் automation குறித்து ஒரு அச்சம் homogenization: அனைவரும் ஒத்த tools-ஐப் பயன்படுத்தி ஒத்த outputs உருவாக்குவார்கள் என்பதுதான். இங்கு தெரிவிக்கப்பட்ட முடிவு அதற்கு எதிரானது. பங்கேற்பாளர்கள் optimizer tuning, quantization, export strategies, modeling variations, மற்றும் முந்தைய வெற்றிகளின் சேர்க்கைகளை ஆராய்ந்தனர். போட்டி ingenuity-யை சமப்படுத்தாமல், அதைக் கௌரவித்தது போலத் தெரிகிறது.

வழங்கப்பட்ட உதாரணங்கள் அந்தக் கருத்தை மேலும் வலுப்படுத்துகின்றன. ஒரு record-track சமர்ப்பிப்பு முந்தைய வெற்றிகரமான approaches-ஐ இணைத்து, பின்னர் Muon weight decay, spectral embedding initialization, residual-mix scheduling, மற்றும் compiled evaluation ஆகியவற்றுடன் ஒரு deeper model-ஐ செயல்படச் செய்தது. மற்றொரு சமர்ப்பிப்பு training முடிந்த பிறகு weights-ஐ quantize செய்ய GPTQ-lite-ஐ பயன்படுத்தியது; அந்த compression path-ஐ வெற்றிகரமாக முன்னெடுத்த முதல் leaderboard entry ஆக அது அமைந்தது. குறிப்பிட்ட techniques-ஐ விட முக்கியமானது pattern: coding agents பங்கேற்பாளர்கள் ஒரு விரிவான technical landscape-ஐ வேகமாக கடந்து, நடைமுறைப்படுத்த உதவினார்கள்.

OpenAI மேலும் இந்த challenge ஒரு meaningful talent-discovery surface ஆனது என்றும் கூறுகிறது. இந்த வடிவத்தின் ஒரு சாத்தியமான விளைவு இது. திறந்த ஆனால் சரிபார்க்கக்கூடிய technical contests persistence, judgment, மற்றும் constraints-ஐ வழிநடத்தும் திறன் ஆகியவற்றை வெளிப்படுத்துகின்றன. Coding agents நல்ல researchers என்ன செய்ய முடியும் என்பதை பெருக்கினால், competitions raw implementation stamina-வைக் காட்டிலும் technical taste-ஐ வெளிக்கொணர மேலும் சிறப்பாகும்.

குறைபாடு: review, attribution, scoring அனைத்தும் கடினமாகின்றன

இதன் மிக முக்கியமான பாடம் தொழில்நுட்பத்தை விட நிறுவன ரீதியாக இருக்கலாம். Source text AI agents submission review, attribution, மற்றும் scoring-இல் புதிய சவால்களை உருவாக்கின என்று கூறுகிறது. இது creativity கதையைப் போலவே கவனம் பெற வேண்டும்.

Agents code உருவாக்க, training routines-ஐ மாற்ற, மற்றும் experimentation-ஐ வேகப்படுத்த உதவும்போது, authorship குறித்த பாரம்பரிய ஊகங்கள் குழப்பமடையத் தொடங்குகின்றன. ஒரு பங்கேற்பாளர் கருத்தாக்கியது என்ன, tool பரிந்துரைத்தது என்ன என்பதை reviewers பிரித்தறிய வேண்டியிருக்கலாம். process documentation, originality validation, மற்றும் எந்த வகையான assistance ஏற்றுக்கொள்ளத்தக்கது என்பதை தீர்மானிக்க organizers-க்கு புதிய standards தேவைப்படலாம்.

Scoring கூட அதிக சிக்கலாகலாம். ஒரு போட்டி leaderboard மட்டும் அல்ல; அது approaches-ஐ நியாயமாக ஒப்பிட வடிவமைக்கப்பட்ட ஒரு rule system. Agents implementation friction-ஐ கணிசமாக குறைத்தால், research insight மற்றும் tooling leverage-இன் எல்லையை வரையறுக்க கடினமாகிறது. இதனால் போட்டி செல்லாது என்று அர்த்தமில்லை. tools-உடன் சேர்ந்து governance model வளர வேண்டும் என்பதுதான் அர்த்தம்.

Parameter Golf-இன் மிக நிலையான takeaway இதுவாக இருக்கலாம். இந்த challenge compact-model creativity-க்கான showcase மட்டும் அல்ல. autonomous coding help யுகத்தில் research contests எப்படி இருக்க வேண்டுமோ அதற்கான ஒரு தொடக்க operating manual-வும் அது.

Google says it stopped a mass cyberattack after AI was used to discover a zero-day exploit

More in AI & Robotics

ஒரு zero-day-ஐ கண்டுபிடித்து பெரும் சைபர் தாக்குதலுக்குத் தயாராக தாக்குதலாளர்கள் AI-யை பயன்படுத்தியதாக Google கூறுகிறது

Threat actor ஒருவர் AI-யைப் பயன்படுத்தி zero-day vulnerability-ஐ கண்டுபிடித்து அதனை weaponize செய்த முதல் அறியப்பட்ட நிகழ்வை தாம் கண்டறிந்ததாக Google’s Threat Intelligence Group கூறுகிறது; திட்டமிட்ட பெரும் தாக்குதல் நிறுத்தப்பட்டதாகவும் அது கூறுகிறது.

Read article

ML research-இன் எதிர்காலம் குறித்து இது என்ன சொல்கிறது

“AI-assisted research” என்ற சொற்றொடர் மங்கலாகத் தோன்றலாம். Parameter Golf அதற்கு தெளிவான வடிவம் தருகிறது. பங்கேற்பாளர்கள் ஒரு chatbot-இடம் விளக்கங்களை மட்டும் கேட்கவில்லை. அவர்கள் bounded, measurable environment-இல் agents-ஐ பயன்படுத்தினார்கள்; அங்கு வெற்றிக்கு repeated experimentation, வழங்கப்பட்ட scripts-உடன் integration, மற்றும் கடுமையான resource limits-க்குள் navigation தேவைப்பட்டது.

அதனால் இந்த போட்டி பரந்த machine learning work-க்கு ஒரு பயனுள்ள proxy ஆகிறது. ஆராய்ச்சி increasingly சிறிய pipelines உருவாக்குதல், quick loops இயக்குதல், metrics-ஐ சரிபார்த்தல், constraints-க்குள் iteration செய்தல், மற்றும் பல பகுதி மேம்பாடுகளை இணைத்தல் ஆகியவற்றை உள்ளடக்கியதாக இருக்கிறது. இவையெல்லாம் coding agents cycle time-ஐ சுருக்கக்கூடிய workflows.

Source text இந்த மாற்றத்தை அபூர்வமான தெளிவுடன் பதிவு செய்கிறது. Agents experimentation செலவைக் குறைத்தன. போட்டியின் வேகத்தை மாற்றின. review மற்றும் attribution-ஐயும் சிக்கலாக்கின. இந்த மூன்று விளைவுகளும் இணைந்து AI as assistant-இலிருந்து AI as research accelerator-க்கு மாறுதலை விவரிக்கின்றன.

இந்த மாற்றத்துக்கு second-order விளைவுகள் இருக்கும். experimentation மலிவானதாக ஆனால், அதிக ideas சோதிக்கப்படும். அதிக ideas சோதிக்கப்பட்டால், evaluation மற்றும் filtering மேலும் முக்கியமாகும். evaluation மற்றும் filtering முக்கியமானதாக ஆகும்போது, labs, conferences, மற்றும் competition organizers போன்ற நிறுவனங்களுக்கு traceability மற்றும் verification குறித்த வலுவான norms தேவைப்படும்.

சிறிய போட்டி, ஆனால் பெரிய பொருள்

Parameter Golf குறுகிய வரம்புடையது, ஆனால் அதன் தாக்கம் அதன் விதிகளைவிட பெரியது. coding agents software engineering-ஐ மட்டுமன்றி, machine learning knowledge production process-ஐயும் மாற்றத் தொடங்குகின்றன என்பதை இந்த challenge சுட்டிக்காட்டுகிறது.

முக்கியமானது agents சிறந்த science-ஐ உறுதி செய்கின்றன என்பதல்ல. வழங்கப்பட்ட source அப்படி கூறவில்லை. முக்கியமானது அவை exploration-ன் economics மற்றும் mechanics-ஐ மாற்றுகின்றன என்பதுதான். formal constraints-க்குள் அதிக விஷயங்களை, வேகமாக, முயற்சிக்க எளிதாக்குகின்றன. இது அதிக creativity மற்றும் அதிக participation-ஐ உருவாக்கலாம்; ஆனால் oversight-ன் தரத்தையும் உயர்த்துகிறது.

அந்த அர்த்தத்தில், Parameter Golf ஒரு niche போட்டியைவிட ஒரு ஆரம்ப signal போலத் தெரிகிறது. ML research-இன் எதிர்காலம் வலுவான பிரச்சினைகளை வடிவமைக்கவும், நம்பகமான evaluation loops-ஐ உருவாக்கவும், rigor-ஐ இழக்காமல் agents-ஐப் பயன்படுத்தவும் முடியும் மக்களிடம் இருக்கலாம். இந்த போட்டி அந்த எதிர்காலம் ஏற்கனவே சிறு அளவில் எப்படி இருக்கிறது என்பதை காட்டியது: வேகமானது, கூட்டம் அதிகமானது, அதிக inventive, மற்றும் பழைய assumptions-ஐ வைத்து referee செய்வது மிகவும் கடினமானது.

இந்த கட்டுரை OpenAI வழங்கிய அறிக்கையின் அடிப்படையில் எழுதப்பட்டது. மூலக் கட்டுரையைப் படிக்கவும்.

More in AI & Robotics

Google புதிய பணி-கையாளும் ஏஜெண்ட்களுடன் Gemini-யை Android-க்குள் மேலும் ஆழமாக கொண்டு செல்கிறது

Samsung Galaxy S26 மற்றும் Google Pixel 10-ல் முதலில் வரும் புதிய Gemini-ஆதரித்த அம்சங்கள், Android பயனர்கள் பல படி பணிகளை முடிக்க, இணைய உள்ளடக்கத்தை சுருக்க, படிவங்களை நிரப்ப, மற்றும் கரடுமுரடான குரல் குறிப்புகளை தெளிவான உரையாக மாற்ற உதவும் என்று Google கூறுகிறது

Read article

Originally published on openai.com

மாதிரிகளைவிட அதிகமானவற்றை சோதிக்க உருவாக்கப்பட்ட ஒரு போட்டி

போட்டி வடிவம் ஏன் இவ்வளவு வெளிப்படையாக இருந்தது

More in AI & Robotics

Thinking Machines Lab உரையாடலை மையமாகக் கொண்ட ஒரு நேரடி பல்மாதிரி மாதிரியை அறிமுகப்படுத்துகிறது

Read article

நன்மை: அதிக experimentation, அதிக creativity, அதிக அணுகல்

குறைபாடு: review, attribution, scoring அனைத்தும் கடினமாகின்றன

More in AI & Robotics

ஒரு zero-day-ஐ கண்டுபிடித்து பெரும் சைபர் தாக்குதலுக்குத் தயாராக தாக்குதலாளர்கள் AI-யை பயன்படுத்தியதாக Google கூறுகிறது

Read article

ML research-இன் எதிர்காலம் குறித்து இது என்ன சொல்கிறது

சிறிய போட்டி, ஆனால் பெரிய பொருள்

More in AI & Robotics

Google புதிய பணி-கையாளும் ஏஜெண்ட்களுடன் Gemini-யை Android-க்குள் மேலும் ஆழமாக கொண்டு செல்கிறது

Read article

Originally published on openai.com

Parameter Golf AI coding agents இயந்திரக் கற்றல் ஆராய்ச்சியையே எப்படி மாற்றுகின்றன என்பதை காட்டுகிறது

மாதிரிகளைவிட அதிகமானவற்றை சோதிக்க உருவாக்கப்பட்ட ஒரு போட்டி

போட்டி வடிவம் ஏன் இவ்வளவு வெளிப்படையாக இருந்தது

Thinking Machines Lab உரையாடலை மையமாகக் கொண்ட ஒரு நேரடி பல்மாதிரி மாதிரியை அறிமுகப்படுத்துகிறது

நன்மை: அதிக experimentation, அதிக creativity, அதிக அணுகல்

குறைபாடு: review, attribution, scoring அனைத்தும் கடினமாகின்றன

ஒரு zero-day-ஐ கண்டுபிடித்து பெரும் சைபர் தாக்குதலுக்குத் தயாராக தாக்குதலாளர்கள் AI-யை பயன்படுத்தியதாக Google கூறுகிறது

ML research-இன் எதிர்காலம் குறித்து இது என்ன சொல்கிறது

சிறிய போட்டி, ஆனால் பெரிய பொருள்

Google புதிய பணி-கையாளும் ஏஜெண்ட்களுடன் Gemini-யை Android-க்குள் மேலும் ஆழமாக கொண்டு செல்கிறது

Comments (0)

Related Articles

OpenAI வெளியீடு போல வேடமிட்ட மால்வேர் Hugging Face பயனர்களை அடைந்தது

Keep Reading

Parameter Golf AI coding agents இயந்திரக் கற்றல் ஆராய்ச்சியையே எப்படி மாற்றுகின்றன என்பதை காட்டுகிறது

மாதிரிகளைவிட அதிகமானவற்றை சோதிக்க உருவாக்கப்பட்ட ஒரு போட்டி

போட்டி வடிவம் ஏன் இவ்வளவு வெளிப்படையாக இருந்தது

Thinking Machines Lab உரையாடலை மையமாகக் கொண்ட ஒரு நேரடி பல்மாதிரி மாதிரியை அறிமுகப்படுத்துகிறது

நன்மை: அதிக experimentation, அதிக creativity, அதிக அணுகல்

குறைபாடு: review, attribution, scoring அனைத்தும் கடினமாகின்றன

ஒரு zero-day-ஐ கண்டுபிடித்து பெரும் சைபர் தாக்குதலுக்குத் தயாராக தாக்குதலாளர்கள் AI-யை பயன்படுத்தியதாக Google கூறுகிறது

ML research-இன் எதிர்காலம் குறித்து இது என்ன சொல்கிறது

சிறிய போட்டி, ஆனால் பெரிய பொருள்

Google புதிய பணி-கையாளும் ஏஜெண்ட்களுடன் Gemini-யை Android-க்குள் மேலும் ஆழமாக கொண்டு செல்கிறது

Comments (0)

Related Articles

OpenAI வெளியீடு போல வேடமிட்ட மால்வேர் Hugging Face பயனர்களை அடைந்தது

Keep Reading