Google Gemini API Agent Skill कोडिंग बेंचमार्क परिणामों को बेहतर बनाता है

Google ने कोडिंग सहायकों की एक बुनियादी कमजोरी को निशाना बनाया

Google ने Gemini API के लिए जिसे वह “Agent Skill” कहता है, पेश किया है। इसका उद्देश्य उस समस्या को हल करना है जो बड़े भाषा मॉडलों पर बने लगभग हर कोडिंग सहायक को प्रभावित करती है: मॉडल सक्षम हो सकता है, लेकिन टूल्स, SDKs और सर्वोत्तम प्रथाओं के बारे में उसका आंतरिक ज्ञान वास्तविकता से पीछे रह सकता है।

कंपनी का तरीका सिद्धांत रूप से सरल है। यह मानने के बजाय कि मॉडल के प्रशिक्षण डेटा में उत्पाद के नवीनतम बदलाव मौजूद होंगे, यह skill एजेंट को उपलब्ध मॉडलों, सॉफ़्टवेयर डेवलपमेंट किट्स और सैंपल कोड के बारे में ताज़ा जानकारी देती है। इससे सिस्टम को उन कार्यों के लिए एक लाइव संदर्भ परत मिलती है, जहां संस्करण-भटकाव और पुरानी उपयोग-पद्धतियाँ अक्सर विफलता का कारण बनती हैं।

यह इसलिए महत्वपूर्ण है क्योंकि कई व्यावहारिक कोडिंग गलतियाँ वास्तव में तर्क संबंधी विफलताएँ नहीं होतीं। वे दस्तावेज़ीकरण संबंधी विफलताएँ होती हैं। कोई मॉडल प्रोग्रामिंग अवधारणाओं को अच्छी तरह समझ सकता है, फिर भी अगर वह गलत फ़ंक्शन कॉल करे, पुराने पैकेज इंटरफ़ेस का संदर्भ दे, या ऐसे उदाहरणों पर निर्भर रहे जो अब अनुशंसित नहीं हैं, तो वह अनुपयोगी कोड बना सकता है।

बेंचमार्क में छलांग बड़ी है

रिपोर्ट किए गए परीक्षण परिणामों के अनुसार, 117 कोडिंग कार्यों वाले एक बेंचमार्क पर प्रभाव नाटकीय था। तुलना में Google के सर्वोत्तम प्रदर्शन वाले मॉडल, Gemini 3.1 Pro Preview, ने इस skill के बिना 28.2 प्रतिशत सफलता दर से बढ़कर इसके साथ 96.6 प्रतिशत सफलता दर हासिल की।

यदि ये आँकड़े बेंचमार्क से आगे भी लागू होते हैं, तो वे इसलिए चौंकाने वाले हैं कि वे यह नहीं दिखाते कि मॉडल की कच्ची बुद्धिमत्ता अचानक बदल गई, बल्कि यह दिखाते हैं कि प्रदर्शन कितना कुछ वर्तमान, संरचित मार्गदर्शन तक पहुँच पर निर्भर कर सकता है। यह skill प्रभावी रूप से उस अंतर को कम कर रही है कि मॉडल क्या तर्क कर सकता है और उसे जिस टूलचेन का उपयोग करना है, उसके बारे में वह वास्तव में क्या जानता है।

Google ने यह भी बताया कि पुराने Gemini 2.5 मॉडलों में बहुत छोटे लाभ देखे गए। दी गई व्याख्या यह थी कि नए मॉडलों में अधिक मजबूत तर्क क्षमता होती है और वे डाली गई जानकारी का बेहतर उपयोग कर सकते हैं। उस रूपरेखा में, skill तर्क का स्थान नहीं लेती। यह मॉडल को ऐसा प्रासंगिक संदर्भ देकर उसे बढ़ाती है जिसका वह प्रभावी ढंग से उपयोग कर सके।

एआई प्रणालियों का मूल्यांकन करने वाले डेवलपर्स के लिए यह अंतर महत्वपूर्ण है। बेहतर ग्राउंडिंग डेटा तब बहुत मदद नहीं करता जब मॉडल उसका अर्थ ही नहीं निकाल पाता। लेकिन मजबूत मॉडल भी बुरी तरह कमज़ोर प्रदर्शन कर सकते हैं यदि उन्हें पुरानी जानकारी के साथ काम करने के लिए मजबूर किया जाए। Google के परिणाम संकेत देते हैं कि सबसे बड़े लाभ उच्च-क्षमता वाले मॉडलों को वर्तमान, सटीक रूप से सीमित संदर्भ सामग्री के साथ जोड़ने से मिल सकते हैं।

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAI ने इन्फ्रास्ट्रक्चर काम और लंबे उपभोक्ता विजन के इर्द-गिर्द रोबोटिक्स को फिर से खड़ा किया है

OpenAI ने अपनी रोबोटिक्स टीम को फिर से बनाया है, शुरुआत इन्फ्रास्ट्रक्चर कार्यों से करते हुए, जबकि CEO Sam Altman एक लंबे समय के लक्ष्य के रूप में सभी के लिए निजी रोबोटों की बात कर रहे हैं।

Read article

एआई कोडिंग सिस्टम कैसे बनाए जा रहे हैं, उसमें व्यापक बदलाव

यह घोषणा एआई टूलिंग में एक व्यापक प्रवृत्ति को भी दर्शाती है। मॉडल वज़न को सत्य का एकमात्र स्रोत मानने के बजाय, डेवलपर अब सामान्य-उद्देश्य मॉडलों के ऊपर बाहरी निर्देश, skills, रिपॉज़िटरी या प्रोटोकॉल सेवाएँ परत-दर-परत जोड़ रहे हैं। Anthropic के skills framework ने इस पैटर्न को लोकप्रिय बनाने में मदद की, और Google का संस्करण इसे सीधे सबसे व्यावसायिक रूप से महत्वपूर्ण उपयोग मामलों में से एक, कोड जनरेशन, पर लागू करता है।

व्यावहारिक रूप से यह इस विचार से हटना है कि एक विशाल प्री-ट्रेंड मॉडल को आधुनिक सॉफ़्टवेयर कार्यों को हल करने के लिए आवश्यक सब कुछ पहले से ही जानना चाहिए। तेज़ी से बदलने वाले प्लेटफ़ॉर्म के लिए यह अपेक्षा हमेशा अवास्तविक रही है। APIs बहुत बार बदलते हैं, SDKs बहुत तेज़ी से विकसित होते हैं, और आधिकारिक पैटर्न लगातार संशोधित होते रहते हैं। वातावरण जितना अधिक गतिशील होता है, केवल प्रशिक्षण पर आधारित दृष्टिकोण उतना ही नाज़ुक हो जाता है।

Google इस नाजुकता को स्वीकार करते हुए इसे सिस्टम स्तर पर संबोधित करता दिख रहा है। मॉडल तर्क-इंजन बना रहता है, लेकिन skill inference time पर उसकी कार्यशील जानकारी को अद्यतन करने का माध्यम बन जाती है।

रिपोर्ट में यह भी कहा गया है कि Vercel के एक अध्ययन ने संकेत दिया है कि AGENTS.md जैसी सीधे निर्देश फ़ाइलें कुछ मामलों में और भी अधिक प्रभावी हो सकती हैं, और Google MCP सेवाओं सहित अन्य विकल्पों का भी अन्वेषण कर रहा है। यह संकेत देता है कि कंपनी मौजूदा skill को अंतिम उत्तर नहीं मानती। इसके बजाय, यह एक व्यापक डिज़ाइन सिद्धांत के एक कार्यान्वयन जैसा दिखता है: कोडिंग एजेंट तब बेहतर काम करते हैं जब वे संरक्षित, कार्य-प्रासंगिक बाहरी ज्ञान से जुड़े हों।

डेवलपर्स को क्यों ध्यान देना चाहिए

कामकाजी सॉफ़्टवेयर टीमों के लिए, इसका निहितार्थ व्यावहारिक है। किसी एआई कोडिंग सहायक की गुणवत्ता केवल मॉडल ब्रांडिंग पर नहीं, बल्कि इस पर अधिक निर्भर हो सकती है कि सिस्टम के पास सही स्थानीय संदर्भ, नवीनतम दस्तावेज़ीकरण और वर्तमान सर्वोत्तम प्रथाओं को दर्शाने वाले उदाहरण उपलब्ध हैं या नहीं। जो मॉडल अलग से साधारण दिखता है, वह सही ढंग से grounded होने पर अत्यंत प्रभावी बन सकता है। जो मॉडल बेंचमार्क में शक्तिशाली दिखता है, वह यदि उसे obsolete interfaces पर hallucinate करने के लिए छोड़ दिया जाए, तो बुरी तरह विफल हो सकता है।

इसके उत्पाद-डिज़ाइन पर परिणाम होते हैं। विक्रेता बड़े-से-बड़े मॉडल बनाने की दौड़ जारी रख सकते हैं, लेकिन retrieval, documentation pipelines और instruction layers को बेहतर करके वे तेज़ लाभ हासिल कर सकते हैं। Google के अपने परीक्षण परिणाम इस तर्क को मज़बूती से स्थापित करते हैं: यह छलांग क्रमिक नहीं थी। यह रूपांतरकारी थी।

फिर भी सावधानी का कारण है। रिपोर्ट किए गए आँकड़े एक विशिष्ट बेंचमार्क से आए हैं, और बेंचमार्क हमेशा वास्तविक दुनिया के गंदे विकास परिवेशों को नहीं दर्शाते। वे maintainability, debugging quality, या एक agent अस्पष्ट आवश्यकताओं को कितनी अच्छी तरह संभालता है, जैसे प्रश्नों का भी पूरी तरह उत्तर नहीं देते। लेकिन मूल सीख विश्वसनीय है और उसे नज़रअंदाज़ करना दिन-ब-दिन कठिन होता जा रहा है।

एआई कोडिंग सिस्टम को केवल बुद्धिमत्ता की ज़रूरत नहीं है। उन्हें ताज़गी चाहिए। Google का Gemini API Agent Skill इस विचार को लागू करने का एक ठोस प्रयास है, और रिपोर्ट किया गया सुधार सुझाव देता है कि मॉडलों को उनके अपने विकसित होते इकोसिस्टम के साथ synchronized रखना उन्हें वास्तव में उपयोगी बनाने के सबसे प्रभावी तरीकों में से एक हो सकता है।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

अध्ययन में पाया गया कि सामाजिक विज्ञान में एआई कोडिंग-एजेंट का उपयोग बेहद असमान है

Anthropic के एक अध्ययन में सामाजिक विज्ञान में कोडिंग-एजेंट अपनाने में बड़े अंतर पाए गए, जो लिंग, क्षेत्र, करियर चरण और विश्वविद्यालय रैंक के आधार पर बदलते हैं।

Read article

Originally published on the-decoder.com