Google background आणि interactive work भोवती Gemini API चे पुनर्रचना करत आहे

Google ने Gemini API साठी Flex आणि Priority या दोन नवीन service tiers सादर केले आहेत. हा बदल developers generative AI systems कशा प्रकारे वापरत आहेत त्यातील वाढत्या दरीचे प्रतिबिंब आहे. Google च्या मते, आधुनिक AI applications मध्ये आता दोन वेगळ्या प्रकारची कामे वाढत आहेत: delay सहन करू शकणारी background jobs आणि अधिक reliability लागणारी user-facing tasks. या दोन्ही प्रकारचा traffic एकाच synchronous interface मधून route करता यावा यासाठी हे नवीन tiers डिझाइन केले आहेत.

हे pricing update वाटू शकते, पण ते त्याहून अधिक आहे. AI application design कुठे चालले आहे याबद्दलचे एक infrastructure statement आहे.

नवीन tiers काय करतात

Flex Inference हा cost-optimized पर्याय आहे. request criticality कमी करून तो Standard API च्या तुलनेत 50% price savings देतो, असे Google म्हणते. याचा अर्थ developers कमी reliability आणि अधिक latency स्वीकारतात, आणि त्याबदल्यात कमी cost मिळवतात. कंपनी Flex ला background CRM updates, मोठ्या प्रमाणातील research simulations, आणि अशा agentic workflows साठी ठेवते ज्यात model ला तात्काळ user pressure शिवाय मागे “browse” किंवा “think” करू दिले जाऊ शकते.

Priority Inference दुसऱ्या दिशेने जाते. Google म्हणते की ते premium price वर सर्वोच्च assurance देते, आणि chatbots व copilots सारख्या critical interactive applications साठी आहे, जिथे response reliability खर्च कमी करण्यापेक्षा अधिक महत्त्वाची असते.

महत्त्वाचा design decision असा आहे की दोन्ही tiers standard synchronous endpoints वापरतात. conventional serving आणि asynchronous Batch API यांच्यात architecture विभागण्याची गुंतागुंत कमी करण्यासाठीच हे केले आहे, असे Google स्पष्टपणे सांगते.

हे developers साठी का महत्त्वाचे आहे

या घोषणेतील सर्वात महत्त्वाचा भाग फक्त कमी cost किंवा जास्त assurance नाही. architecture सोपे करण्याचा प्रयत्न आहे. आतापर्यंत developers ना वेगवेगळ्या AI jobs साठी वेगवेगळे patterns हाताळावे लागत होते, interactive work साठी synchronous APIs आणि स्वस्त, कमी urgent कामांसाठी asynchronous batch flows वापरावे लागत होते.

Google ती विभागणी कमी करण्याचा प्रयत्न करत आहे. आता developers वेगवेगळ्या request models भोवती workflows पुन्हा डिझाइन न करता, एका interface द्वारे service tier ट्यून करू शकतात. AI systems अधिक agentic होत असताना आणि एकाच product मध्ये user-visible actions सोबत hidden background processing मिसळत असताना हे विशेष महत्त्वाचे ठरते.

म्हणजेच, Gemini API ला एका नव्या application reality शी जुळवून घेतले जात आहे. काही requests संभाषणाचा भाग असतात. इतर background मध्ये तयारी, research, enrichment, किंवा evaluation करणारे अदृश्य काम असते. त्यांना first-class service categories म्हणून हाताळणे व्यावहारिकदृष्ट्या योग्य आहे.

Agentic AI चे economics

Google चा pricing संदेशही महत्त्वाचा आहे. latency सहन करू शकणाऱ्या कामांसाठी 50% स्वस्त tier देणे हे मान्य करते की अनेक developers AI usage scale करू इच्छितात, पण प्रत्येक task साठी interactive-grade rates देणे त्यांना परवडत नाही. applications अधिक autonomous होत गेल्यावर non-urgent model calls चे प्रमाण झपाट्याने वाढू शकते.

म्हणून tiering आर्थिकदृष्ट्या धोरणात्मक आहे. background cognition वर कमी खर्च करण्यासाठी, आणि failure किंवा delay अस्वीकार्य असेल तिथे अधिक पैसे देण्यासाठी कंपन्यांना मार्ग हवा आहे. Flex आणि Priority मुळात ही विभागणी औपचारिक करतात.

म्हणूनच ही घोषणा अधिक परिपक्व होत असलेल्या market कडे इशारा करते. सुरुवातीची generative AI products बहुतेक वेळा model access ला एकाच premium service प्रमाणे पाहत. अधिक advanced deployments providers ना urgency, reliability, आणि budget नुसार segmentation करायला भाग पाडत आहेत.

अधिक स्पष्ट control surface

Google हा बदल developers ना “granular control over cost and reliability” देतो असे वर्णन करते. हेच योग्य framing आहे. कंपनी फक्त models ना access विकत नाही. ती application च्या वेगवेगळ्या भागांमध्ये त्या models चा वापर कसा होईल यावर operational control विकत आहे.

हे बहुधा संपूर्ण industry मध्ये standard होईल. AI workloads विविध होत गेल्यावर developers ना model identity पेक्षा product logic शी जुळणारे inference options अधिक अपेक्षित असतील. Google चे नवीन tiers हे आतापर्यंतचे सर्वात स्पष्ट संकेत आहेत की providers आता agentic software ला urgent आणि non-urgent intelligence च्या मिश्रणाप्रमाणे पाहत आहेत, ज्यांच्या service requirements वेगळ्या आहेत.

Gemini वर काम करणाऱ्या teams साठी practical takeaway तात्काळ आहे. त्यांना आता त्याच synchronous API surface सोडण्याची गरज न पडता स्वस्त background inference आणि premium interactive inference यांपैकी निवड करता येईल. व्यापक market साठी takeaway आणखी मोठा आहे: AI platform competition आता केवळ model quality पुरती मर्यादित राहिलेली नाही, तर workload economics आणि reliability engineering कडे अधिक खोलवर जात आहे.

हा लेख Google AI Blog च्या reporting वर आधारित आहे. मूळ लेख वाचा.

Originally published on blog.google