Google Gemini API Agent Skill coding benchmark முடிவுகளை மேம்படுத்துகிறது

Google, coding assistants-இன் ஒரு அடிப்படை பலவீனத்தை குறிவைக்கிறது

Gemini API-க்காக Google “Agent Skill” என்று அழைக்கும் ஒன்றை அறிமுகப்படுத்தியுள்ளது. இது பெரிய மொழி மாதிரிகளின் மீது கட்டப்பட்ட கிட்டத்தட்ட அனைத்து coding assistants-ஐயும் பாதிக்கும் ஒரு பிரச்சினையை சமாளிக்கிறது: model திறமைசாலியாக இருக்கலாம், ஆனால் tools, SDKs மற்றும் best practices பற்றிய அதன் உள் அறிவு நிஜ நிலைமையிலிருந்து பின்னோக்கி இருக்கலாம்.

இந்த அணுகுமுறை கொள்கை ரீதியாக எளிமையானது. ஒரு model-ன் training data-வில் சமீபத்திய product மாற்றங்கள் இருக்க வேண்டும் என்று எதிர்பார்ப்பதற்குப் பதிலாக, இந்த skill agent-க்கு கிடைக்கக்கூடிய models, software development kits, மற்றும் sample code பற்றிய தற்போதைய தகவலை வழங்குகிறது. இதனால் version drift மற்றும் outdated usage patterns அடிக்கடி தோல்விகளை ஏற்படுத்தும் பணிகளுக்கு system-க்கு ஒரு live reference layer கிடைக்கிறது.

இது முக்கியமானது, ஏனெனில் பல நடைமுறை coding தவறுகள் உண்மையில் reasoning failures அல்ல. அவை documentation failures. ஒரு model programming concepts-ஐ நன்றாகப் புரிந்துகொள்ளலாம்; இருப்பினும் தவறான function-ஐ அழைத்தால், பழைய package interface-ஐ குறிப்பிடினால், அல்லது இனி பரிந்துரைக்கப்படாத examples-ஐ நம்பினால், பயன்படுத்த முடியாத code-ஐ உருவாக்கலாம்.

Benchmark-ல் உயர்வு பெரிது

அறிக்கையிடப்பட்ட test results-ன்படி, 117 coding tasks கொண்ட benchmark-ல் விளைவு குறிப்பிடத்தக்கதாக இருந்தது. ஒப்பீட்டில் Google-இன் சிறந்த செயல்திறன் கொண்ட model, Gemini 3.1 Pro Preview, இந்த skill இல்லாமல் 28.2 percent success rate-இலிருந்து, skill உடன் 96.6 percent ஆக உயர்ந்தது.

இந்த எண்கள் benchmark-ஐத் தாண்டி பொதுவாக பொருந்தினால், அவை கவனிக்கத்தக்கவை; காரணம் model-ன் raw intelligence திடீரென மாறிவிட்டது என்பதைக் காட்டுவதற்காக அல்ல, மாறாக தற்போதைய, கட்டமைக்கப்பட்ட guidance-க்கு அணுகல் எவ்வளவு செயல்திறனை நிர்ணயிக்க முடியும் என்பதைக் காட்டுவதற்காக. இந்த skill, ஒரு model தர்க்க ரீதியாகக் கண்டறியக்கூடிய விஷயங்களுக்கும் அது பயன்படுத்த வேண்டிய toolchain பற்றி உண்மையில் தெரிந்திருக்கும் விஷயங்களுக்கும் இடையிலான இடைவெளியைக் குறைக்கிறது.

பழைய Gemini 2.5 models-க்கு மிகச் சிறிய முன்னேற்றங்கள் בלבד இருந்ததாகவும் Google தெரிவித்தது. அதன் விளக்கம் என்னவென்றால், புதிய models-க்கு வலுவான reasoning திறன்கள் உள்ளன, மேலும் உள்ளீடாக சேர்க்கப்பட்ட தகவலைச் சிறப்பாகப் பயன்படுத்த முடியும். அந்தக் கட்டமைப்பில், skill reasoning-ஐ மாற்றுவதில்லை. மாறாக, model திறம்படப் பயன்படுத்தக்கூடிய தொடர்புடைய context-ஐ வழங்கி அதை வலுப்படுத்துகிறது.

AI systems-ஐ மதிப்பீடு செய்யும் developers-க்கு அந்த வேறுபாடு முக்கியமானது. model அதை விளக்க முடியாவிட்டால், சிறந்த grounding data பெரிதாக உதவாது. ஆனால் பழைய அறிவுடன் வேலை செய்ய வைக்கப்பட்டால், வலுவான models கூட மிகவும் மோசமாக செயல்படலாம். தற்போதைய, நெருக்கமாக வரையறுக்கப்பட்ட reference material-உடன் high-capability models-ஐ இணைப்பதிலிருந்து மிகப்பெரிய முன்னேற்றங்கள் வரக்கூடும் என்பதை Google-இன் முடிவுகள் தெரிவிக்கின்றன.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 மணி நேர ரோபோடிக்ஸ் தரவுத்தொகுப்பை ஓபன்-சோர்ஸ் செய்தது

X Square Robot, embodied AI அமைப்புகளுக்குத் தேவையான உண்மை-ரோபோ பயிற்சி தரவின் அளவைக் குறைப்பதை நோக்கமாகக் கொண்டு XRZero-G0 மற்றும் 2,000 மணி நேர பல்மாதிரி தரவுத்தொகுப்பை வெளியிட்டுள்ளது.

Read article

AI coding systems எவ்வாறு கட்டமைக்கப்படுகின்றன என்பதில் பரந்த மாற்றம்

இந்த அறிவிப்பு AI tooling-இல் ஒரு பரந்த போக்கையும் பிரதிபலிக்கிறது. model weights-ஐ ஒரே உண்மை ஆதாரமாகக் கருதுவதற்குப் பதிலாக, developers பொதுப் பயன்பாட்டு models-க்கு மேல் external instructions, skills, repositories, அல்லது protocol services-ஐ அதிகமாக அடுக்குகின்றனர். Anthropic-இன் skills framework அந்த முறையை பிரபலப்படுத்த உதவியது, மேலும் Google-இன் பதிப்பு அதை நேரடியாக மிகவும் வணிகரீதியாக முக்கியமான use cases-இல் ஒன்றான code generation-க்கு பயன்படுத்துகிறது.

நடைமுறையில், இது ஒரு பெரிய pretrained model-க்கு நவீன software tasks-ஐத் தீர்க்கத் தேவையான அனைத்தும் ஏற்கனவே தெரிந்திருக்க வேண்டும் என்ற எண்ணத்திலிருந்து விலகுவதாகும். வேகமாக மாறும் platforms-க்கு அந்த எதிர்பார்ப்பு எப்போதும் யதார்த்தமற்றது. APIs அடிக்கடி மாறுகின்றன, SDKs மிக வேகமாக வளர்கின்றன, மேலும் official patterns தொடர்ந்து திருத்தப்படுகின்றன. சூழல் எவ்வளவு dynamic ஆக இருக்கிறதோ, training-only அணுகுமுறை அவ்வளவு brittle ஆகிறது.

இந்த brittle தன்மையை Google ஏற்றுக்கொண்டு, அதை system level-ல் சமாளிப்பதாகத் தெரிகிறது. model reasoning engine ஆகவே தொடர்கிறது, ஆனால் skill inference time-ல் அதன் working knowledge-ஐப் புதுப்பிக்கும் வாகனமாக மாறுகிறது.

மேலும், ஒரு Vercel ஆய்வு AGENTS.md போன்ற direct instruction files சில சந்தர்ப்பங்களில் இன்னும் பயனுள்ளதாக இருக்கலாம் என்றும், Google MCP services உட்பட பிற விருப்பங்களையும் ஆராய்கிறது என்றும் அறிக்கை குறிப்பிடுகிறது. இதன் மூலம் தற்போதைய skill தான் இறுதி பதில் என்று நிறுவனம் கருதவில்லை என்பதும் தெரிகிறது. மாறாக, இது ஒரு பரந்த design principle-இன் ஒரு செயலாக்கமாகத் தெரிகிறது: coding agents, maintained, task-relevant external knowledge-உடன் இணைக்கப்படும்போது சிறப்பாக செயல்படுகின்றன.

Developers ஏன் கவனம் செலுத்த வேண்டும்

வேலைக்காக software teams-க்கு, இதன் நடைமுறைப் பொருள் தெளிவானது. AI coding assistant-ன் தரம் model branding-ஐ மட்டும் சாராமல், system-க்கு சரியான local context, சமீபத்திய documentation, மற்றும் current best practice-ஐ பிரதிபலிக்கும் examples ஆகியவற்றை அணுகும் வாய்ப்பு உள்ளதா என்பதையும் அதிகமாக சாரலாம். தனியாகப் பார்க்கும்போது சாதாரணமாகத் தோன்றும் model, சரியாக grounded செய்யப்பட்டால் மிகவும் திறமையானதாக மாறலாம். benchmark-ல் சக்திவாய்ந்ததாகத் தோன்றும் model, obsolete interfaces-ஐ hallucinate செய்ய விட்டால் கடுமையாகத் தோல்வியடையலாம்.

இதற்கு product design-ல் விளைவுகள் உள்ளன. vendors தொடர்ந்து மேலும் பெரிய models-ஐத் தேடலாம், ஆனால் retrieval, documentation pipelines, மற்றும் instruction layers-ஐ மேம்படுத்தி அவர்கள் வேகமான முன்னேற்றங்களைத் திறக்கலாம். Google-இன் சொந்த test results இந்த வழக்கை வலுவாக முன்வைக்கின்றன: அந்த உயர்வு படிப்படியானதாக இல்லை. அது மாற்றமளிப்பதாக இருந்தது.

இருந்தாலும் எச்சரிக்கைக்குக் காரணம் உள்ளது. அறிக்கையிடப்பட்ட எண்கள் ஒரு குறிப்பிட்ட benchmark-இலிருந்து வந்தவை, மேலும் benchmarks எப்போதும் சிக்கலான நிஜ உலக development environments-ஐ பிரதிபலிப்பதில்லை. அவை maintainability, debugging quality, அல்லது ஒரு agent ambiguous requirements-ஐ எவ்வளவு நன்றாக கையாளுகிறது போன்ற கேள்விகளுக்கும் முழுமையாக விடையளிக்கவில்லை. ஆனால் அடிப்படைப் பாடம் நம்பகமானது, மேலும் அதை புறக்கணிப்பது நாளுக்கு நாள் கடினமாகிறது.

AI coding systems-க்கு வெறும் intelligence மட்டும் போதாது. அவர்களுக்கு freshness வேண்டும். Google-இன் Gemini API Agent Skill அந்த யோசனையை நடைமுறைப்படுத்தும் ஒரு தெளிவான முயற்சி, மேலும் அறிக்கையிடப்பட்ட மேம்பாடு, models-ஐ அவற்றின் சொந்த evolving ecosystems-உடன் synchronized ஆக வைத்திருப்பது அவற்றை உண்மையிலேயே பயனுள்ளதாக மாற்றும் மிகச் செயல்திறன் வாய்ந்த வழிகளில் ஒன்றாக இருக்கலாம் என்பதைக் காட்டுகிறது.

இந்தக் கட்டுரை The Decoder-ன் reporting-ஐ அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Anthropic கட்டாய தணிக்கைகளை கோருகிறது; AI-யை மூலதன அடித்தளமாக மறுபரிசீலனை செய்கிறது

Anthropic CEO Dario Amodei கூறுவதாவது, வெளிப்படைத்தன்மை விதிகள் மட்டும் இனி போதாது; முன்னணி AI அமைப்புகளுக்கு கட்டாய மூன்றாம் தரப்பு தணிக்கைகள் வேண்டும்.

Read article

Originally published on the-decoder.com

Google-இன் Gemini API ‘Agent Skill’ புதிய ஆவணங்கள் coding முடிவுகளை எவ்வளவு தெளிவாக மேம்படுத்த முடியும் என்பதை காட்டுகிறது