Google background और interactive work को ध्यान में रखकर Gemini API को नया रूप दे रहा है

Google ने Gemini API के लिए Flex और Priority नाम के दो नए service tiers पेश किए हैं। यह कदम इस बढ़ती खाई को दर्शाता है कि डेवलपर generative AI systems का उपयोग कैसे कर रहे हैं। Google के अनुसार, modern AI applications में अब दो अलग-अलग तरह के काम तेजी से दिख रहे हैं: background jobs जो delay सह सकती हैं, और user-facing tasks जिन्हें अधिक reliability चाहिए। इन दोनों तरह के traffic को एक ही synchronous interface से route करने के लिए ये नए tiers बनाए गए हैं।

यह एक pricing update जैसा लग सकता है, लेकिन यह उससे अधिक है। यह AI application design किस दिशा में जा रहा है, इस बारे में infrastructure-level statement है.

नए tiers क्या करते हैं

Flex Inference cost-optimized विकल्प है। Google का कहना है कि request criticality को कम करके यह Standard API की तुलना में 50% price savings देता है, यानी developer कम reliability और अधिक latency स्वीकार करते हैं और बदले में कम cost पाते हैं। कंपनी Flex को background CRM updates, large-scale research simulations, और ऐसे agentic workflows के लिए रखती है जिनमें model को तुरंत user pressure के बिना पीछे से “browse” या “think” करने दिया जा सकता है।

Priority Inference दूसरी दिशा में जाता है। Google का कहना है कि यह premium price पर सर्वोच्च assurance देता है, और chatbots तथा copilots जैसे critical interactive applications को लक्ष्य करता है जहाँ response reliability, cost कम करने से अधिक महत्वपूर्ण है।

मुख्य design decision यह है कि दोनों tiers standard synchronous endpoints का उपयोग करते हैं। Google साफ़ कहता है कि इसका उद्देश्य conventional serving और asynchronous Batch API के बीच architecture को बाँटने की जटिलता को हटाना है।

यह developers के लिए क्यों मायने रखता है

इस घोषणा का सबसे महत्वपूर्ण हिस्सा सिर्फ कम cost या अधिक assurance नहीं है। असली बात architecture को सरल बनाना है। अब तक developers को अक्सर अलग-अलग AI jobs के लिए अलग-अलग patterns संभालने पड़ते थे, interactive work के लिए synchronous APIs और सस्ते, कम urgent tasks के लिए asynchronous batch flows का उपयोग करते हुए।

Google उस विभाजन को कम करना चाहता है। अब developers अलग request models के आधार पर workflows को फिर से डिज़ाइन करने के बजाय एक ही interface के जरिए service tier को ट्यून कर सकते हैं। यह खास तौर पर तब प्रासंगिक है जब AI systems अधिक agentic हो रहे हैं और एक ही product में user-visible actions के साथ hidden background processing को मिला रहे हैं।

व्यावहारिक रूप से, Gemini API को एक नई application reality से मेल खाने के लिए समायोजित किया जा रहा है। कुछ requests conversation का हिस्सा होती हैं। दूसरी वे invisible काम होती हैं जो background में तैयारी, research, enrichment, या evaluation करती हैं। उन्हें first-class service categories मानना व्यावहारिक रूप से समझदारी है।

Agentic AI की economics

Google का pricing संदेश भी बहुत कुछ बताता है। latency-tolerant कामों के लिए 50% सस्ता tier यह स्वीकार करता है कि बहुत से developers AI usage को scale करना चाहते हैं, लेकिन हर task के लिए interactive-grade rates देना उचित नहीं ठहरा सकते। जैसे-जैसे applications अधिक autonomous होते जाते हैं, non-urgent model calls की संख्या तेज़ी से बढ़ सकती है।

यही वजह है कि tiering आर्थिक रूप से रणनीतिक है। कंपनियों को background cognition पर कम खर्च करने, और जहाँ failure या delay अस्वीकार्य है वहाँ अधिक भुगतान करने का तरीका चाहिए। Flex और Priority इस विभाजन को औपचारिक रूप से स्थापित करते हैं।

इसलिए यह घोषणा एक परिपक्व होते market की ओर संकेत करती है। शुरुआती generative AI products अक्सर model access को एक ही premium service मानते थे। अधिक advanced deployments providers को urgency, reliability, और budget के आधार पर segmentation करने के लिए मजबूर कर रहे हैं।

एक अधिक स्पष्ट control surface

Google इस बदलाव को developers को “granular control over cost and reliability” देने के रूप में वर्णित करता है। यही सही framing है। कंपनी केवल models तक access नहीं बेच रही। वह इस बात पर operational control बेच रही है कि application के अलग-अलग हिस्सों में उन models का उपयोग कैसे हो।

संभावना है कि यह पूरे industry में standard बन जाएगा। जैसे-जैसे AI workloads विविध होते जाएंगे, developers increasingly ऐसे inference विकल्प चाहेंगे जो product logic से मेल खाते हों, न कि सिर्फ model identity से। Google के नए tiers इस बात के अब तक के सबसे स्पष्ट संकेतों में से हैं कि providers अब agentic software को urgent और non-urgent intelligence के मिश्रण के रूप में देखते हैं, जिनकी service requirements अलग-अलग हैं।

Gemini पर काम करने वाली teams के लिए practical takeaway तुरंत है। अब वे एक ही synchronous API surface छोड़े बिना सस्ता background inference और premium interactive inference चुन सकती हैं। व्यापक market के लिए takeaway इससे भी बड़ा है: AI platform competition अब सिर्फ model quality तक सीमित नहीं है, बल्कि workload economics और reliability engineering की ओर गहराई से बढ़ रही है।

यह लेख Google AI Blog की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on blog.google