Google background এবং interactive work-এর চারপাশে Gemini API-কে নতুনভাবে সাজাচ্ছে
Google Gemini API-এর জন্য Flex এবং Priority নামে দুটি নতুন service tier চালু করেছে। এটি generative AI systems-কে ডেভেলপাররা কীভাবে ব্যবহার করছেন, তার মধ্যে ক্রমবর্ধমান বিভাজনকে প্রতিফলিত করে। Google-এর মতে, আধুনিক AI applications-এ এখন দুটি আলাদা ধরনের কাজ ক্রমশ বেশি দেখা যাচ্ছে: এমন background jobs যেগুলো delay সহ্য করতে পারে, এবং এমন user-facing tasks যেগুলোর জন্য বেশি reliability দরকার। এই দুই ধরনের traffic-ই একই synchronous interface-এর মাধ্যমে route করার জন্য নতুন tier-গুলি তৈরি করা হয়েছে।
এটি একটি pricing update মনে হতে পারে, কিন্তু তার চেয়ে বেশি কিছু। এটি AI application design কোন দিকে এগোচ্ছে, সে বিষয়ে infrastructure-level statement.
নতুন tier-গুলো কী করে
Flex Inference হলো cost-optimized option। Google বলছে, request criticality কমিয়ে এটি Standard API-এর তুলনায় 50% price savings দেয়, অর্থাৎ developers কম reliability এবং বেশি latency মেনে নিয়ে কম cost পান। কোম্পানি Flex-কে background CRM updates, বৃহৎ research simulations, এবং এমন agentic workflows-এর জন্য উপযোগী বলে অবস্থান করছে যেখানে model-কে তাৎক্ষণিক user pressure ছাড়াই পেছনে “browse” বা “think” করতে দেওয়া যায়।
Priority Inference এর বিপরীত দিকে যায়। Google বলছে, এটি premium price-এ সর্বোচ্চ assurance দেয়, এবং chatbots ও copilots-এর মতো critical interactive applications-এর জন্য লক্ষ্য করা হয়েছে, যেখানে response reliability খরচ কমানোর চেয়ে বেশি গুরুত্বপূর্ণ।
মূল design decision হলো, দুই tier-ই standard synchronous endpoints ব্যবহার করে। conventional serving এবং asynchronous Batch API-র মধ্যে architecture ভাগ করে দেওয়ার জটিলতা কমাতেই এটি করা হয়েছে বলে Google স্পষ্টভাবে জানিয়েছে।
এটি developers-এর জন্য কেন গুরুত্বপূর্ণ
এই ঘোষণার সবচেয়ে গুরুত্বপূর্ণ অংশ কেবল কম cost বা বেশি assurance নয়। এটি architecture সহজ করার চেষ্টা। এতদিন developers-দের প্রায়ই বিভিন্ন AI job-এর জন্য আলাদা pattern সামলাতে হতো, interactive কাজের জন্য synchronous APIs এবং সস্তা, কম জরুরি কাজের জন্য asynchronous batch flows ব্যবহার করে।
Google সেই বিভাজন কমাতে চাইছে। এখন developers আলাদা request models-এর চারপাশে workflows নতুন করে না গড়ে, একটি interface দিয়েই service tier টিউন করতে পারবেন। AI systems আরও বেশি agentic হয়ে উঠছে এবং একই product-এর মধ্যে user-visible action-এর সঙ্গে hidden background processing মিশিয়ে দিচ্ছে, সেই প্রেক্ষিতে এটি বিশেষভাবে প্রাসঙ্গিক।
বাস্তবে, Gemini API-কে নতুন application reality-এর সঙ্গে মানিয়ে নেওয়া হচ্ছে। কিছু requests conversation-এর অংশ। অন্যগুলো হলো background-এ প্রস্তুতি, research, enrichment, বা evaluation-এর অদৃশ্য কাজ। সেগুলোকে first-class service categories হিসেবে ধরা বাস্তবসম্মত।
Agentic AI-এর economics
Google-এর pricing message-ও তাৎপর্যপূর্ণ। latency-tolerant কাজের জন্য 50% সস্তা tier দেওয়া মানে অনেক developers AI usage scale করতে চান, কিন্তু প্রতিটি task-এর জন্য interactive-grade rate দিতে পারেন না। applications আরও autonomous হতে থাকলে non-urgent model calls-এর পরিমাণ দ্রুত বেড়ে যেতে পারে।
এ কারণেই tiering অর্থনৈতিকভাবে কৌশলগত। background cognition-এ কম খরচ করার, আবার failure বা delay অগ্রহণযোগ্য হলে বেশি খরচ করার উপায় কোম্পানিগুলোর দরকার। Flex এবং Priority কার্যত সেই বিভাজনকে আনুষ্ঠানিক রূপ দিচ্ছে।
ফলে এই ঘোষণা একটি পরিণত হতে থাকা market-এর কথাই বলছে। প্রথম দিকের generative AI products প্রায়ই model access-কে একক premium service হিসেবে দেখত। আরও advanced deployments provider-দের urgency, reliability, এবং budget অনুযায়ী segment করতে বাধ্য করছে।
আরও স্পষ্ট control surface
Google এই পরিবর্তনকে developers-কে “granular control over cost and reliability” দেওয়া হিসেবে বর্ণনা করেছে। এটিই সঠিক framing। কোম্পানি শুধু models-এর access বিক্রি করছে না। এটি application-এর বিভিন্ন অংশে সেই models কীভাবে ব্যবহার হবে, তার operational control বিক্রি করছে।
এটি সম্ভবত পুরো industry জুড়েই standard হয়ে উঠবে। AI workloads যত বৈচিত্র্যময় হবে, developers তত বেশি model identity নয়, product logic-এর সঙ্গে মেলে এমন inference options চাইবেন। Google-এর নতুন tier-গুলি এখন পর্যন্ত সবচেয়ে স্পষ্ট লক্ষণগুলোর একটি যে providers এখন agentic software-কে urgent এবং non-urgent intelligence-এর মিশ্রণ হিসেবে দেখছে, যার service requirements আলাদা।
Gemini-এর ওপর নির্মাণকারী teams-এর জন্য practical takeaway তাৎক্ষণিক। তারা এখন একই synchronous API surface না ছাড়িয়েই সস্তা background inference এবং premium interactive inference-এর মধ্যে বেছে নিতে পারবেন। broader market-এর জন্য takeaway আরও বড়: AI platform competition এখন শুধু model quality-র মধ্যে সীমাবদ্ধ নয়, workload economics এবং reliability engineering-এর গভীরে যাচ্ছে।
এই articleটি Google AI Blog-এর reporting-এর উপর ভিত্তি করে। মূল article পড়ুন.
Originally published on blog.google

