Google কোডিং সহকারীদের একটি মৌলিক দুর্বলতাকে লক্ষ্য করছে

Google Gemini API-এর জন্য যা “Agent Skill” বলে পরিচয় করিয়েছে, তা এমন একটি সমস্যাকে মোকাবিলা করার জন্য তৈরি, যা বড় ভাষা মডেলের ওপর তৈরি প্রায় সব coding assistant-কে প্রভাবিত করে: model সক্ষম হতে পারে, কিন্তু tools, SDKs, এবং best practices সম্পর্কে তার অভ্যন্তরীণ জ্ঞান বাস্তবতার থেকে পিছিয়ে থাকতে পারে।

কোম্পানির পদ্ধতিটি নীতিগতভাবে সহজ। model-এর training data-তে সর্বশেষ product পরিবর্তনগুলো আছে বলে ধরে নেওয়ার বদলে, এই skill agent-কে available models, software development kits, এবং sample code সম্পর্কে বর্তমান তথ্য দেয়। এতে system-টি version drift এবং outdated usage patterns-এর কারণে ঘটা ব্যর্থতার ক্ষেত্রে একটি live reference layer পায়।

এটি গুরুত্বপূর্ণ, কারণ অনেক বাস্তব coding ভুল আসলে reasoning failure নয়। এগুলো documentation failure। একটি model programming concepts যথেষ্ট ভালোভাবে বুঝতে পারে, তবু যদি এটি ভুল function কল করে, পুরনো package interface উল্লেখ করে, বা এমন examples-এর ওপর নির্ভর করে যা আর সুপারিশ করা হয় না, তাহলে তা ব্যবহার অযোগ্য code তৈরি করতে পারে।

Benchmark-এ লাফটি বড়

প্রকাশিত test results অনুযায়ী, 117 coding tasks-এর একটি benchmark-এ প্রভাব ছিল অত্যন্ত বড়। তুলনায় Google-এর শীর্ষ-performing model, Gemini 3.1 Pro Preview, এই skill ছাড়া 28.2 percent success rate থেকে skill-সহ 96.6 percent-এ উন্নীত হয়েছে।

এই সংখ্যাগুলো benchmark-এর বাইরে সাধারণীকরণযোগ্য হলে, তা চমকপ্রদ কারণ model-এর raw intelligence হঠাৎ বদলে গেছে তা বোঝায় না, বরং দেখায় current, structured guidance-এ অ্যাক্সেসের ওপর performance কতখানি নির্ভর করতে পারে। skill কার্যত model কী যুক্তি করতে পারে এবং যে toolchain ব্যবহার করার কথা, সে সম্পর্কে সে আসলে কী জানে, তার মধ্যকার ব্যবধান কমাচ্ছে।

Google আরও জানিয়েছে, পুরনো Gemini 2.5 models অনেক কম লাভ পেয়েছে। ব্যাখ্যা ছিল, নতুন models-এর reasoning ক্ষমতা বেশি শক্তিশালী এবং তারা injected information আরও ভালোভাবে ব্যবহার করতে পারে। সেই framing-এ skill reasoning-এর বিকল্প নয়। এটি model-কে কার্যকরভাবে ব্যবহারযোগ্য প্রাসঙ্গিক context দিয়ে সেটিকে শক্তিশালী করে।

AI systems মূল্যায়নকারী developers-দের জন্য এই পার্থক্য গুরুত্বপূর্ণ। model তা ব্যাখ্যা করতে না পারলে উন্নত grounding data খুব একটা কাজে আসে না। কিন্তু শক্তিশালী modelsও পুরনো knowledge নিয়ে কাজ করতে বাধ্য হলে খারাপভাবে পারফর্ম করতে পারে। Google-এর ফলাফল ইঙ্গিত দিচ্ছে যে সবচেয়ে বড় লাভ আসতে পারে high-capability models-কে বর্তমান, tight-scoped reference material-এর সঙ্গে জোড়া লাগানোর মাধ্যমে।

AI coding systems কীভাবে তৈরি হচ্ছে, তাতে বৃহত্তর পরিবর্তন

এই ঘোষণা AI tooling-এ একটি বৃহত্তর প্রবণতাও তুলে ধরে। model weights-কে সত্যের একমাত্র উৎস হিসেবে ধরার বদলে, developers ক্রমশ general-purpose models-এর ওপর external instructions, skills, repositories, বা protocol services-এর স্তর যোগ করছেন। Anthropic-এর skills framework এই প্যাটার্নকে জনপ্রিয় করতে সাহায্য করেছে, এবং Google-এর সংস্করণ এটি সরাসরি সবচেয়ে বাণিজ্যিকভাবে গুরুত্বপূর্ণ use case-গুলোর একটি, code generation-এ প্রয়োগ করছে।

ব্যবহারিকভাবে, এটি এমন ধারণা থেকে সরে আসা যে একটি বিশাল pretrained model-ই আধুনিক software task সমাধানে প্রয়োজনীয় সবকিছু আগে থেকেই জানবে। দ্রুত পরিবর্তনশীল platforms-এর ক্ষেত্রে এই প্রত্যাশা সবসময়ই অবাস্তব ছিল। APIs খুব ঘন ঘন বদলায়, SDKs খুব দ্রুত evolve করে, আর official patterns নিয়মিত সংশোধিত হয়। পরিবেশ যত dynamic, training-only approach তত brittle হয়ে ওঠে।

Google এই brittleness স্বীকার করে system level-এ তা মোকাবিলা করছে বলে মনে হচ্ছে। model রয়ে যায় reasoning engine, কিন্তু skill inference time-এ তার working knowledge আপডেট করার বাহন হয়ে ওঠে।

রিপোর্টে আরও বলা হয়েছে, Vercel-এর একটি study ইঙ্গিত দিয়েছে যে

AGENTS.md

মতো direct instruction files কিছু ক্ষেত্রে আরও কার্যকর হতে পারে, এবং Google MCP services-সহ আরও বিকল্প অন্বেষণ করছে। এটি ইঙ্গিত দেয় যে কোম্পানি বর্তমান skill-কে চূড়ান্ত উত্তর হিসেবে দেখে না। বরং এটি একটি বৃহত্তর design principle-এর একটি বাস্তবায়ন বলে মনে হয়: coding agents তখন ভালো কাজ করে যখন তারা maintained, task-relevant external knowledge-এর সঙ্গে সংযুক্ত থাকে।

Developers কেন খেয়াল করবেন

বাস্তব software teams-এর জন্য এর তাৎপর্য ব্যবহারিক। একটি AI coding assistant-এর মান model branding-এর চেয়ে বেশি নির্ভর করতে পারে system-টির সঠিক local context, সর্বশেষ documentation, এবং current best practice-প্রতিফলিত examples-এ অ্যাক্সেস আছে কি না তার ওপর। একা দেখলে মাঝারি মনে হওয়া model, সঠিকভাবে grounded হলে অত্যন্ত কার্যকর হয়ে উঠতে পারে। benchmark-এ শক্তিশালী দেখানো model, obsolete interfaces-এ hallucinate করতে দিলে খারাপভাবে ব্যর্থ হতে পারে।

এর product design-এর ওপর প্রভাব আছে। vendors আরও বড় model-এর পেছনে ছুটতে পারে, কিন্তু retrieval, documentation pipelines, এবং instruction layers উন্নত করে তারা দ্রুততর লাভ পেতে পারে। Google-এর নিজস্ব test results এই যুক্তিকে জোরালোভাবে সমর্থন করে: ওই jump ছিল না ধাপে ধাপে। এটি ছিল transformational।

তবু সতর্কতার কারণ আছে। রিপোর্ট করা সংখ্যাগুলো একটি নির্দিষ্ট benchmark থেকে এসেছে, আর benchmark সব সময় messy real-world development environments প্রতিফলিত করে না। এগুলো maintainability, debugging quality, বা একটি agent ambiguous requirements কতটা ভালোভাবে সামলায়, সেই প্রশ্নগুলোরও পুরোপুরি উত্তর দেয় না। কিন্তু মূল শিক্ষা বিশ্বাসযোগ্য এবং উপেক্ষা করা দিন দিন কঠিন হয়ে উঠছে।

AI coding systems-এর শুধু intelligence দরকার নেই। তাদের freshness দরকার। Google-এর Gemini API Agent Skill সেই ভাবনাকে বাস্তবায়নের একটি স্পষ্ট প্রচেষ্টা, এবং reported improvement ইঙ্গিত দেয় যে models-কে তাদের evolving ecosystems-এর সঙ্গে synchronized রাখা তাদের সত্যিই কার্যকর করে তোলার সবচেয়ে কার্যকর উপায়গুলোর একটি হতে পারে।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.