Google, coding assistantsలోని ఒక ప్రాథమిక బలహీనతను లక్ష్యంగా పెట్టుకుంది
Google, Gemini API కోసం తాను “Agent Skill” అని పిలిచేదాన్ని పరిచయం చేసింది. ఇది పెద్ద భాషా మోడళ్లపై నిర్మితమైన దాదాపు ప్రతి coding assistantను ప్రభావితం చేసే సమస్యను ఎదుర్కొనేందుకు ఉద్దేశించబడింది: model సామర్థ్యం కలిగి ఉండవచ్చు, కానీ tools, SDKs, మరియు best practices గురించి దాని అంతర్గత జ్ఞానం వాస్తవ పరిస్థితుల కంటే వెనుకబడిపోవచ్చు.
సూత్రప్రాయంగా కంపెనీ దృక్పథం సులభమైనది. model- యొక్క training dataలో తాజా product మార్పులు ఉంటాయని ఊహించుకోవడం బదులు, ఈ skill agentకు అందుబాటులో ఉన్న models, software development kits, మరియు sample code గురించి ప్రస్తుత సమాచారాన్ని అందిస్తుంది. దీంతో version drift మరియు outdated usage patterns తరచుగా వైఫల్యాలకు దారితీసే పనుల కోసం systemకు ఒక live reference layer లభిస్తుంది.
ఇది ముఖ్యమైనది, ఎందుకంటే అనేక ప్రాయోగిక coding తప్పులు నిజానికి reasoning failures కావు. అవి documentation failures. ఒక model programming conceptsను బాగా అర్థం చేసుకోగలదు, కానీ తప్పు functionను పిలిస్తే, పాత package interfaceను సూచిస్తే, లేదా ఇకపై సిఫార్సు చేయని examplesపై ఆధారపడితే ఉపయోగించలేని codeను ఉత్పత్తి చేయవచ్చు.
Benchmarkలో ఎగబాకడం పెద్దది
ప్రకటించిన test results ప్రకారం, 117 coding tasksతో కూడిన benchmarkలో ప్రభావం ఆశ్చర్యకరంగా ఉంది. పోలికలో Google యొక్క అత్యుత్తమ model, Gemini 3.1 Pro Preview, ఈ skill లేకుండా 28.2 percent success rate నుండి skillతో 96.6 percentకు మెరుగుపడింది.
ఈ సంఖ్యలు benchmarkను మించి సాధారణీకరించగలిగితే, అవి మోడల్ యొక్క raw intelligence ఒక్కసారిగా మారిందని సూచించడంవల్ల కాదు; ప్రస్తుత, structured guidanceకు ప్రాప్యత పనితీరును ఎంతగా నిర్ణయించగలదో చూపడంవల్ల ఆకట్టుకుంటాయి. ఈ skill, model తర్కపరంగా అర్థం చేసుకోగల దాని మరియు దానికి ఉపయోగించాల్సిన toolchain గురించి వాస్తవంగా తెలిసిన దాని మధ్య అంతరాన్ని తగ్గిస్తోంది.
Google, పాత Gemini 2.5 modelsకు చాలా చిన్న లాభాలే కనిపించాయని కూడా తెలిపింది. దాని వివరణ ప్రకారం, కొత్త modelsకు బలమైన reasoning సామర్థ్యాలు ఉన్నాయి, మరియు చేర్చిన సమాచారాన్ని మరింత సమర్థవంతంగా ఉపయోగించగలవు. ఆ framingలో, skill reasoningను భర్తీ చేయదు. అది model సమర్థవంతంగా ఉపయోగించగల సంబంధిత contextను అందించి దాన్ని పెంపొందిస్తుంది.
AI systemsను అంచనా వేస్తున్న developersకు ఆ తేడా ముఖ్యమైనది. model దాన్ని అర్థం చేసుకోలేకపోతే, మంచి grounding data పెద్దగా ఉపయోగపడదు. కానీ బలమైన models కూడా పాత జ్ఞానంతో పనిచేయాల్సి వస్తే తీవ్రంగా తక్కువగా ప్రదర్శించవచ్చు. అత్యధిక gains, high-capability modelsను తాజా, కచ్చితంగా పరిమితమైన reference materialతో జత చేయడం ద్వారా రావచ్చని Google ఫలితాలు సూచిస్తున్నాయి.
AI coding systems ఎలా నిర్మించబడుతున్నాయనే విషయంలో విస్తృత మార్పు
ఈ ప్రకటన AI toolingలోని ఒక విస్తృత ధోరణిని కూడా ప్రతిబింబిస్తోంది. model weightsను ఏకైక truth sourceగా పరిగణించడానికి బదులు, developers సాధారణ-purpose modelsపై external instructions, skills, repositories, లేదా protocol servicesను ఎక్కువగా పొరలుగా జోడిస్తున్నారు. Anthropic యొక్క skills framework ఆ నమూనాను ప్రాచుర్యంలోకి తీసుకురావడానికి సహాయపడింది, మరియు Google యొక్క version దాన్ని నేరుగా అత్యంత వాణిజ్యపరంగా ముఖ్యమైన use casesలో ఒకటైన code generationకు వర్తింపజేస్తోంది.
ప్రాక్టికల్గా, ఇది ఒక పెద్ద pretrained model modern software tasksను పరిష్కరించడానికి అవసరమైన ప్రతిదీ ఇప్పటికే తెలిసి ఉండాలి అనే ఆలోచన నుండి దూరం కావడం. వేగంగా మారుతున్న platformsకు ఆ అంచనా ఎప్పటికీ అవాస్తవమైనదే. APIs తరచూ మారుతాయి, SDKs చాలా వేగంగా అభివృద్ధి చెందుతాయి, మరియు official patterns నిరంతరం సవరించబడతాయి. వాతావరణం ఎంత dynamicగా ఉంటే, training-only విధానం అంత brittleగా మారుతుంది.
Google ఈ brittlenessను అంగీకరించి, దానిని system levelలో పరిష్కరిస్తున్నట్లు కనిపిస్తోంది. model reasoning engineగా మిగిలిపోతుంది, కానీ skill inference timeలో దాని working knowledgeను నవీకరించే వాహనంగా మారుతుంది.
Vercel చేసిన ఒక అధ్యయనం
AGENTS.md
వంటి direct instruction files కొన్ని సందర్భాల్లో ఇంకా ప్రభావవంతంగా ఉండవచ్చని సూచించిందని, అలాగే Google MCP services సహా ఇతర ఎంపికలను కూడా పరిశీలిస్తున్నదని నివేదిక పేర్కొంది. దీని ద్వారా ప్రస్తుత skillను తుది సమాధానంగా కంపెనీ చూడటం లేదని స్పష్టమవుతోంది. బదులుగా, coding agents maintained, task-relevant external knowledgeతో అనుసంధానమై ఉన్నప్పుడు బాగా పని చేస్తాయనే ఒక విస్తృత design principle యొక్క అమలుగా ఇది కనిపిస్తోంది.Developers ఎందుకు దీనిని గమనించాలి
పని చేసే software teamsకు దీని అర్థం ప్రాయోగికం. AI coding assistant quality model brandingపై మాత్రమే కాకుండా, systemకు సరైన local context, తాజా documentation, మరియు current best practiceను ప్రతిబింబించే examplesకు ప్రాప్యత ఉందా అనే విషయంపై ఎక్కువగా ఆధారపడవచ్చు. ఒంటరిగా చూస్తే సాధారణంగా కనిపించే model, సరైన grounding ఉంటే అత్యంత సమర్థవంతంగా మారుతుంది. benchmarkలో శక్తివంతంగా కనిపించే model, obsolete interfacesను hallucinate చేయనిస్తే ఘోరంగా విఫలమవుతుంది.
దానికి product designపై ప్రభావాలు ఉన్నాయి. vendors ఇంకా పెద్ద modelsను వెంబడించవచ్చు, కానీ retrieval, documentation pipelines, మరియు instruction layersను మెరుగుపరచడం ద్వారా వేగవంతమైన gains పొందవచ్చు. Google యొక్క స్వంత test results ఈ వాదనను బలంగా నిరూపిస్తున్నాయి: ఆ jump incremental కాదు. అది transformative.
అయితే ఇంకా జాగ్రత్త అవసరం. నివేదించిన సంఖ్యలు ఒక నిర్దిష్ట benchmark నుండి వచ్చాయి, మరియు benchmarks ఎల్లప్పుడూ messy real-world development environmentsను ప్రతిబింబించవు. అవి maintainability, debugging quality, లేదా ఒక agent ambiguous requirementsను ఎంత బాగా నిర్వహిస్తుందో వంటి ప్రశ్నలకు పూర్తిగా సమాధానం ఇవ్వవు. కానీ ప్రధాన పాఠం విశ్వసనీయమైనదే, మరియు దాన్ని విస్మరించడం మరింత కష్టం అవుతోంది.
AI coding systemsకు కేవలం intelligence మాత్రమే సరిపోదు. వాటికి freshness అవసరం. Google యొక్క Gemini API Agent Skill ఆ ఆలోచనను అమలులోకి తేవడానికి చేసిన ఒక స్పష్టమైన ప్రయత్నం, మరియు నివేదించిన మెరుగుదల modelsను వాటి evolving ecosystemsతో synchronizedగా ఉంచడం అవి నిజంగా ఉపయోగకరంగా మారడానికి అత్యంత ప్రభావవంతమైన మార్గాల్లో ఒకటిగా ఉండవచ్చని సూచిస్తోంది.
ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. అసలు వ్యాసాన్ని చదవండి.



