Google ने coding assistants मधील एक मूलभूत कमजोरी लक्ष्य केली आहे

Google ने Gemini API साठी ज्याला तो “Agent Skill” म्हणतो ते सादर केले आहे. हे मोठ्या भाषा मॉडेल्सवर आधारित जवळपास प्रत्येक coding assistant ला प्रभावित करणाऱ्या समस्येला हाताळण्यासाठी आहे: model सक्षम असू शकतो, पण tools, SDKs, आणि best practices बद्दलचे त्याचे अंतर्गत ज्ञान वास्तवापेक्षा मागे पडू शकते.

कंपनीचा दृष्टिकोन तत्त्वतः सोपा आहे. model च्या training data मध्ये नवीनतम product बदल असतील अशी अपेक्षा करण्याऐवजी, ही skill agent ला उपलब्ध models, software development kits, आणि sample code बद्दलची अद्ययावत माहिती देते. त्यामुळे version drift आणि outdated usage patterns मुळे होणाऱ्या अपयशांच्या ठिकाणी system ला एक live reference layer मिळते.

हे महत्त्वाचे आहे कारण अनेक प्रत्यक्ष coding चुका या खरंतर reasoning failures नसतात. त्या documentation failures असतात. एखादा model programming concepts नीट समजू शकतो, तरी तो चुकीचा function कॉल केल्यास, कालबाह्य package interface चा संदर्भ दिल्यास, किंवा आता शिफारस नसलेल्या examples वर अवलंबून राहिल्यास वापरता न येणारा code तयार करू शकतो.

Benchmark मधील उडी मोठी आहे

रिपोर्ट केलेल्या test results नुसार, 117 coding tasks च्या benchmark वर परिणाम नाट्यमय होता. तुलनेत Google चा सर्वोत्तम model, Gemini 3.1 Pro Preview, या skill शिवाय 28.2 percent success rate वरून skill सह 96.6 percent पर्यंत सुधारला.

ही आकडेवारी benchmark च्या पलीकडे लागू झाली, तर ती लक्षवेधी आहे; कारण त्यामुळे model ची raw intelligence अचानक बदलली असे सुचत नाही, तर current, structured guidance पर्यंतचा प्रवेश कार्यक्षमतेवर किती अवलंबून असू शकतो हे दिसते. ही skill model काय तर्क करू शकतो आणि त्याला वापरायच्या toolchain बद्दल त्याला प्रत्यक्षात काय माहीत आहे, यामधील दरी कमी करत आहे.

Google ने असेही सांगितले की जुन्या Gemini 2.5 models ला फारच कमी फायदा झाला. यासाठी दिलेले स्पष्टीकरण असे होते की नवीन models कडे अधिक मजबूत reasoning क्षमता आहे आणि ते injected information चा चांगला उपयोग करू शकतात. त्या चौकटीत skill reasoning ची जागा घेत नाही. ती संबंधित context देऊन त्याला बळकटी देते, ज्याचा model प्रभावीपणे वापर करू शकतो.

AI systems चे मूल्यमापन करणाऱ्या developers साठी हा फरक महत्त्वाचा आहे. model त्याचे अर्थ लावू शकत नसेल, तर चांगला grounding data फारसा उपयोगी ठरत नाही. पण मजबूत models ला कालबाह्य ज्ञानावर काम करण्यास भाग पाडले तर तेही खूपच कमी कामगिरी करू शकतात. Google चे निकाल सूचित करतात की सर्वात मोठे फायदे उच्च-क्षमता असलेल्या models ला अद्ययावत, काटेकोरपणे मर्यादित reference material सोबत जोडल्याने मिळू शकतात.

AI coding systems कशा तयार होत आहेत, यात व्यापक बदल

ही घोषणा AI tooling मधील व्यापक प्रवाह देखील दर्शवते. model weights ला सत्याचा एकमेव स्रोत मानण्याऐवजी, developers आता general-purpose models वर external instructions, skills, repositories, किंवा protocol services चे थर चढवत आहेत. Anthropic च्या skills framework ने हा pattern लोकप्रिय करण्यात मदत केली, आणि Google ची आवृत्ती तो थेट code generation या सर्वात व्यावसायिकदृष्ट्या महत्त्वाच्या use cases पैकी एकावर लागू करते.

व्यावहारिक अर्थाने, हे असे मानण्यापासून दूर जाणे आहे की एक प्रचंड pretrained model आधुनिक software tasks सोडवण्यासाठी लागणारी सर्व माहिती आधीच जाणत असेल. झपाट्याने बदलणाऱ्या platforms साठी ही अपेक्षा नेहमीच अवास्तव होती. APIs खूप वेळा बदलतात, SDKs खूप वेगाने evolve होतात, आणि official patterns सतत सुधारले जातात. वातावरण जितके dynamic, तितकी training-only पद्धत brittle होते.

Google या brittleness ला मान्य करून system level वर त्यावर उपाय करत असल्याचे दिसते. model तर्क-इंजिन राहतो, पण skill inference time ला त्याचे working knowledge अद्ययावत करण्याचे माध्यम बनते.

रिपोर्टमध्ये असेही नमूद केले आहे की Vercel च्या एका अभ्यासाने

AGENTS.md

सारख्या direct instruction files काही प्रकरणांत अधिक प्रभावी ठरू शकतात असे सूचित केले आहे, आणि Google MCP services सहित इतर पर्यायांचा शोध घेत आहे. यावरून कंपनी सध्याच्या skill ला अंतिम उत्तर मानत नाही हे स्पष्ट होते. त्याऐवजी, coding agents maintained, task-relevant external knowledge शी जोडले गेल्यावर अधिक चांगले काम करतात, या व्यापक design principle चा हा एक अवतार दिसतो.

Developers नी का लक्ष द्यावे

काम करणाऱ्या software teams साठी याचा अर्थ व्यावहारिक आहे. AI coding assistant ची गुणवत्ता model branding वरच नव्हे, तर system कडे योग्य local context, ताजे documentation, आणि current best practice दर्शवणारी examples यांचा प्रवेश आहे का यावर अधिक अवलंबून असू शकते. एकट्याने पाहिल्यास साधारण वाटणारा model, योग्य grounding मिळाल्यावर अत्यंत प्रभावी ठरू शकतो. benchmark मध्ये शक्तिशाली दिसणारा model, obsolete interfaces बद्दल hallucinate करायला लावल्यास मोठ्या प्रमाणात अपयशी ठरू शकतो.

याचे product design वर परिणाम होतात. vendors अधिक मोठ्या models चा पाठलाग करत राहू शकतात, पण retrieval, documentation pipelines, आणि instruction layers सुधारून त्यांना जलद फायदे मिळू शकतात. Google चे स्वतःचे test results हा मुद्दा ठळकपणे मांडतात: तो उडी incremental नव्हती. ती transformative होती.

तरीही सावध राहण्यास कारण आहे. रिपोर्ट केलेले आकडे एका विशिष्ट benchmark मधून आले आहेत, आणि benchmarks नेहमीच गोंधळलेल्या real-world development environments चे प्रतिनिधित्व करत नाहीत. ते maintainability, debugging quality, किंवा एखादा agent ambiguous requirements कसे हाताळतो, या प्रश्नांना पूर्ण उत्तर देत नाहीत. पण मुख्य धडा विश्वासार्ह आहे आणि दुर्लक्षित करणे दिवसेंदिवस कठीण होत आहे.

AI coding systems ना फक्त intelligence पुरेशी नाही. त्यांना freshness हवी. Google चा Gemini API Agent Skill ही संकल्पना प्रत्यक्षात उतरवण्याचा ठोस प्रयत्न आहे, आणि reported improvement सूचित करते की models ना त्यांच्या स्वतःच्या evolving ecosystems शी synchronized ठेवणे त्यांना खरोखर उपयुक्त बनवण्याच्या सर्वात प्रभावी मार्गांपैकी एक असू शकते.

हा लेख The Decoder च्या reporting वर आधारित आहे. मूळ लेख वाचा.