Google Gemini API Agent Skill coding benchmark ఫలితాలను మెరుగుపరుస్తుంది

Google, coding assistants‌లోని ఒక ప్రాథమిక బలహీనతను లక్ష్యంగా పెట్టుకుంది

Google, Gemini API కోసం తాను “Agent Skill” అని పిలిచేదాన్ని పరిచయం చేసింది. ఇది పెద్ద భాషా మోడళ్లపై నిర్మితమైన దాదాపు ప్రతి coding assistant‌ను ప్రభావితం చేసే సమస్యను ఎదుర్కొనేందుకు ఉద్దేశించబడింది: model సామర్థ్యం కలిగి ఉండవచ్చు, కానీ tools, SDKs, మరియు best practices గురించి దాని అంతర్గత జ్ఞానం వాస్తవ పరిస్థితుల కంటే వెనుకబడిపోవచ్చు.

సూత్రప్రాయంగా కంపెనీ దృక్పథం సులభమైనది. model- యొక్క training dataలో తాజా product మార్పులు ఉంటాయని ఊహించుకోవడం బదులు, ఈ skill agent‌కు అందుబాటులో ఉన్న models, software development kits, మరియు sample code గురించి ప్రస్తుత సమాచారాన్ని అందిస్తుంది. దీంతో version drift మరియు outdated usage patterns తరచుగా వైఫల్యాలకు దారితీసే పనుల కోసం system‌కు ఒక live reference layer లభిస్తుంది.

ఇది ముఖ్యమైనది, ఎందుకంటే అనేక ప్రాయోగిక coding తప్పులు నిజానికి reasoning failures కావు. అవి documentation failures. ఒక model programming concepts‌ను బాగా అర్థం చేసుకోగలదు, కానీ తప్పు function‌ను పిలిస్తే, పాత package interface‌ను సూచిస్తే, లేదా ఇకపై సిఫార్సు చేయని examples‌పై ఆధారపడితే ఉపయోగించలేని code‌ను ఉత్పత్తి చేయవచ్చు.

Benchmark‌లో ఎగబాకడం పెద్దది

ప్రకటించిన test results ప్రకారం, 117 coding tasks‌తో కూడిన benchmarkలో ప్రభావం ఆశ్చర్యకరంగా ఉంది. పోలికలో Google యొక్క అత్యుత్తమ model, Gemini 3.1 Pro Preview, ఈ skill లేకుండా 28.2 percent success rate నుండి skill‌తో 96.6 percent‌కు మెరుగుపడింది.

ఈ సంఖ్యలు benchmark‌ను మించి సాధారణీకరించగలిగితే, అవి మోడల్ యొక్క raw intelligence ఒక్కసారిగా మారిందని సూచించడంవల్ల కాదు; ప్రస్తుత, structured guidance‌కు ప్రాప్యత పనితీరును ఎంతగా నిర్ణయించగలదో చూపడంవల్ల ఆకట్టుకుంటాయి. ఈ skill, model తర్కపరంగా అర్థం చేసుకోగల దాని మరియు దానికి ఉపయోగించాల్సిన toolchain గురించి వాస్తవంగా తెలిసిన దాని మధ్య అంతరాన్ని తగ్గిస్తోంది.

Google, పాత Gemini 2.5 models‌కు చాలా చిన్న లాభాలే కనిపించాయని కూడా తెలిపింది. దాని వివరణ ప్రకారం, కొత్త models‌కు బలమైన reasoning సామర్థ్యాలు ఉన్నాయి, మరియు చేర్చిన సమాచారాన్ని మరింత సమర్థవంతంగా ఉపయోగించగలవు. ఆ framingలో, skill reasoning‌ను భర్తీ చేయదు. అది model సమర్థవంతంగా ఉపయోగించగల సంబంధిత context‌ను అందించి దాన్ని పెంపొందిస్తుంది.

AI systems‌ను అంచనా వేస్తున్న developers‌కు ఆ తేడా ముఖ్యమైనది. model దాన్ని అర్థం చేసుకోలేకపోతే, మంచి grounding data పెద్దగా ఉపయోగపడదు. కానీ బలమైన models కూడా పాత జ్ఞానంతో పనిచేయాల్సి వస్తే తీవ్రంగా తక్కువగా ప్రదర్శించవచ్చు. అత్యధిక gains, high-capability models‌ను తాజా, కచ్చితంగా పరిమితమైన reference material‌తో జత చేయడం ద్వారా రావచ్చని Google ఫలితాలు సూచిస్తున్నాయి.

AI coding systems ఎలా నిర్మించబడుతున్నాయనే విషయంలో విస్తృత మార్పు

ఈ ప్రకటన AI tooling‌లోని ఒక విస్తృత ధోరణిని కూడా ప్రతిబింబిస్తోంది. model weights‌ను ఏకైక truth source‌గా పరిగణించడానికి బదులు, developers సాధారణ-purpose models‌పై external instructions, skills, repositories, లేదా protocol services‌ను ఎక్కువగా పొరలుగా జోడిస్తున్నారు. Anthropic యొక్క skills framework ఆ నమూనాను ప్రాచుర్యంలోకి తీసుకురావడానికి సహాయపడింది, మరియు Google యొక్క version దాన్ని నేరుగా అత్యంత వాణిజ్యపరంగా ముఖ్యమైన use casesలో ఒకటైన code generation‌కు వర్తింపజేస్తోంది.

ప్రాక్టికల్‌గా, ఇది ఒక పెద్ద pretrained model modern software tasks‌ను పరిష్కరించడానికి అవసరమైన ప్రతిదీ ఇప్పటికే తెలిసి ఉండాలి అనే ఆలోచన నుండి దూరం కావడం. వేగంగా మారుతున్న platforms‌కు ఆ అంచనా ఎప్పటికీ అవాస్తవమైనదే. APIs తరచూ మారుతాయి, SDKs చాలా వేగంగా అభివృద్ధి చెందుతాయి, మరియు official patterns నిరంతరం సవరించబడతాయి. వాతావరణం ఎంత dynamic‌గా ఉంటే, training-only విధానం అంత brittle‌గా మారుతుంది.

Google ఈ brittleness‌ను అంగీకరించి, దానిని system level‌లో పరిష్కరిస్తున్నట్లు కనిపిస్తోంది. model reasoning engine‌గా మిగిలిపోతుంది, కానీ skill inference time‌లో దాని working knowledge‌ను నవీకరించే వాహనంగా మారుతుంది.

Vercel చేసిన ఒక అధ్యయనం

AGENTS.md

వంటి direct instruction files కొన్ని సందర్భాల్లో ఇంకా ప్రభావవంతంగా ఉండవచ్చని సూచించిందని, అలాగే Google MCP services సహా ఇతర ఎంపికలను కూడా పరిశీలిస్తున్నదని నివేదిక పేర్కొంది. దీని ద్వారా ప్రస్తుత skill‌ను తుది సమాధానంగా కంపెనీ చూడటం లేదని స్పష్టమవుతోంది. బదులుగా, coding agents maintained, task-relevant external knowledge‌తో అనుసంధానమై ఉన్నప్పుడు బాగా పని చేస్తాయనే ఒక విస్తృత design principle యొక్క అమలుగా ఇది కనిపిస్తోంది.

Developers ఎందుకు దీనిని గమనించాలి

పని చేసే software teams‌కు దీని అర్థం ప్రాయోగికం. AI coding assistant quality model branding‌పై మాత్రమే కాకుండా, system‌కు సరైన local context, తాజా documentation, మరియు current best practice‌ను ప్రతిబింబించే examples‌కు ప్రాప్యత ఉందా అనే విషయంపై ఎక్కువగా ఆధారపడవచ్చు. ఒంటరిగా చూస్తే సాధారణంగా కనిపించే model, సరైన grounding ఉంటే అత్యంత సమర్థవంతంగా మారుతుంది. benchmark‌లో శక్తివంతంగా కనిపించే model, obsolete interfaces‌ను hallucinate చేయనిస్తే ఘోరంగా విఫలమవుతుంది.

దానికి product design‌పై ప్రభావాలు ఉన్నాయి. vendors ఇంకా పెద్ద models‌ను వెంబడించవచ్చు, కానీ retrieval, documentation pipelines, మరియు instruction layers‌ను మెరుగుపరచడం ద్వారా వేగవంతమైన gains పొందవచ్చు. Google యొక్క స్వంత test results ఈ వాదనను బలంగా నిరూపిస్తున్నాయి: ఆ jump incremental కాదు. అది transformative.

అయితే ఇంకా జాగ్రత్త అవసరం. నివేదించిన సంఖ్యలు ఒక నిర్దిష్ట benchmark నుండి వచ్చాయి, మరియు benchmarks ఎల్లప్పుడూ messy real-world development environments‌ను ప్రతిబింబించవు. అవి maintainability, debugging quality, లేదా ఒక agent ambiguous requirements‌ను ఎంత బాగా నిర్వహిస్తుందో వంటి ప్రశ్నలకు పూర్తిగా సమాధానం ఇవ్వవు. కానీ ప్రధాన పాఠం విశ్వసనీయమైనదే, మరియు దాన్ని విస్మరించడం మరింత కష్టం అవుతోంది.

AI coding systems‌కు కేవలం intelligence మాత్రమే సరిపోదు. వాటికి freshness అవసరం. Google యొక్క Gemini API Agent Skill ఆ ఆలోచనను అమలులోకి తేవడానికి చేసిన ఒక స్పష్టమైన ప్రయత్నం, మరియు నివేదించిన మెరుగుదల models‌ను వాటి evolving ecosystems‌తో synchronized‌గా ఉంచడం అవి నిజంగా ఉపయోగకరంగా మారడానికి అత్యంత ప్రభావవంతమైన మార్గాల్లో ఒకటిగా ఉండవచ్చని సూచిస్తోంది.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. అసలు వ్యాసాన్ని చదవండి.