Google, background மற்றும் interactive work-களை மையமாக வைத்து Gemini API-யை மறுவடிவமைக்கிறது

Google, Gemini API-க்கு Flex மற்றும் Priority என்ற இரண்டு புதிய service tiers-ஐ அறிமுகப்படுத்தியுள்ளது. இது generative AI systems-ஐ developers பயன்படுத்தும் விதத்தில் உருவாகும் பிளவை பிரதிபலிக்கும் ஒரு நடவடிக்கை. Google-ன் கூற்றுப்படி, நவீன AI applications-ல் இப்போது இரண்டு தனித்துவமான வேலை வகைகள் அதிகரித்து வருகின்றன: delay-ஐ தாங்கக்கூடிய background jobs, மற்றும் அதிக நம்பகத்தன்மை தேவைப்படும் user-facing tasks. இந்த இரண்டு வகை traffic-ஐயும் ஒரே synchronous interface வழியாக route செய்ய இந்த tiers வடிவமைக்கப்பட்டுள்ளன.

இது ஒரு pricing update போல தோன்றலாம், ஆனால் அது அதைவிட அதிகம். AI application design எந்த திசையில் செல்கிறது என்பதைச் சொல்லும் ஒரு infrastructure statement இது.

புதிய tiers என்ன செய்கின்றன

Flex Inference என்பது செலவைக் குறைப்பதற்கான விருப்பம். request criticality-ஐ குறைப்பதன் மூலம் Standard API-யுடன் ஒப்பிடும்போது 50% price savings கிடைக்கும் என்று Google கூறுகிறது. அதாவது developers குறைந்த reliability-யையும் அதிக latency-யையும் ஏற்றுக்கொண்டு, குறைந்த செலவைப் பெறுகிறார்கள். background CRM updates, பெரிய அளவிலான research simulations, மேலும் model-ஐ உடனடி user pressure இல்லாமல் பின்னணியில் “browse” செய்ய அல்லது “think” செய்ய விடக்கூடிய agentic workflows-க்கு Flex-ஐ நிறுவனம் நிலைநிறுத்துகிறது.

Priority Inference எதிர்திசையில் செல்கிறது. இது premium price-க்கு உயர்ந்த assurance-ஐ வழங்குகிறது என்று Google கூறுகிறது, response reliability செலவை குறைப்பதை விட முக்கியமான chatbots மற்றும் copilots போன்ற critical interactive applications-ஐ இலக்காகக் கொண்டுள்ளது.

முக்கிய design decision என்னவென்றால், இரண்டு tiers-யும் standard synchronous endpoints-ஐ பயன்படுத்துகின்றன. conventional serving மற்றும் asynchronous Batch API ஆகியவற்றுக்கு இடையில் architecture-ஐப் பிரிப்பதன் சிக்கலை நீக்குவதற்காக இதைச் செய்ததாக Google தெளிவாகக் கூறுகிறது.

இது developers-க்கு ஏன் முக்கியம்

இந்த அறிவிப்பின் மிக முக்கியமான பகுதி குறைந்த செலவு அல்லது அதிக assurance மட்டும் அல்ல. architecture-ஐ எளிமைப்படுத்தும் முயற்சிதான். இதுவரை, developers பல்வேறு AI jobs-க்காக பல்வேறு patterns-ஐ நிர்வகிக்க வேண்டியிருந்தது; interactive work-க்கு synchronous APIs, குறைந்த அவசரத்துடன் இருக்கும் பணிகளுக்கு asynchronous batch flows.

அந்த பிரிவை Google குறைக்க முயல்கிறது. இப்போது developers, தனித்த request models-ஐ வைத்து workflows-ஐ மறுவடிவமைக்காமல், ஒரே interface மூலம் service tier-ஐ fine-tune செய்யலாம். AI systems மேலும் agentic ஆகி, ஒரே product-ல் user-visible actions-ஐ மறைமுக background processing-உடன் கலந்து செயல்படும் நிலையில் இது மிகவும் பொருத்தமானது.

அதாவது, Gemini API ஒரு புதிய application reality-க்கு ஏற்ப மாற்றப்படுகிறது. சில requests உரையாடலின் ஒரு பகுதி. மற்றவை background-ல் தயாரிப்பு, research, enrichment, அல்லது evaluation செய்யும் கண்களுக்கு புலப்படாத வேலை. அவற்றை first-class service categories ஆகக் கருதுவது நடைமுறையில் பொருத்தமானது.

Agentic AI-யின் economics

Google-ன் pricing message கூட முக்கியமானது. latency-ஐ தாங்கக்கூடிய வேலைகளுக்கு 50% குறைந்த tier வழங்குவது, பல developers AI usage-ஐ scale செய்ய விரும்புகிறார்கள்; ஆனால் ஒவ்வொரு task-க்கும் interactive-grade rates கொடுப்பதை நியாயப்படுத்த முடியாது என்பதையும் ஏற்றுக்கொள்கிறது. applications மேலும் autonomous ஆகும் போது, non-urgent model calls-ன் அளவு வேகமாக அதிகரிக்கலாம்.

அதனால் tiering பொருளாதார ரீதியாக மூலோபாயமானது. background cognition-க்கு குறைவாக செலவிட்டு, failure அல்லது delay ஏற்க முடியாத இடங்களில் அதிகமாக செலவிட நிறுவனங்களுக்கு வழி வேண்டும். Flex மற்றும் Priority அந்தப் பிரிவை முறையாக நிறுவுகின்றன.

எனவே இந்த அறிவிப்பு ஒரு முதிர்ச்சியடைந்து வரும் market-ஐச் சுட்டிக்காட்டுகிறது. ஆரம்பகட்ட generative AI products பொதுவாக model access-ஐ ஒரே premium service ஆகவே பார்த்தன. மேலும் முன்னேறிய deployments, urgency, reliability, budget ஆகியவற்றின் அடிப்படையில் providers-ஐ segment செய்ய வலியுறுத்துகின்றன.

மேலும் தெளிவான control surface

இந்த மாற்றத்தை Google, developers-க்கு “granular control over cost and reliability” வழங்குவதாக விவரிக்கிறது. இதுதான் சரியான framing. நிறுவனம் models-க்கு access-ஐ மட்டும் விற்பனை செய்யவில்லை. ஒரு application-இன் பல பகுதிகளில் அந்த models எப்படி பயன்படுத்தப்படுகின்றன என்பதற்கான operational control-ஐ விற்கிறது.

இது முழு industry-யிலும் standard ஆகலாம். AI workloads வேறுபடும் போது, developers model identity-யை மட்டும் பார்க்காமல் product logic-க்கு பொருந்தும் inference options-ஐ அதிகமாக எதிர்பார்ப்பார்கள். agentic software என்பது urgent மற்றும் non-urgent intelligence-ன் கலவையாகும், அதற்குத் தனித்த service requirements உள்ளன என்பதை providers இப்போது பார்க்கத் தொடங்கியிருப்பதற்கான மிகத் தெளிவான அறிகுறிகளில் Google-ன் புதிய tiers ஒன்று.

Gemini-யின் மீது உருவாக்கும் teams-க்கு நடைமுறை takeaway உடனடியாக கிடைக்கிறது. அதே synchronous API surface-ஐ விட்டு விலகாமல், அவர்கள் இப்போது குறைந்த செலவு background inference-ஐயும் premium interactive inference-ஐயும் தேர்வு செய்ய முடியும். market முழுவதற்குமான takeaway இன்னும் பெரியது: AI platform போட்டி model quality-யை மட்டும் தாண்டி, workload economics மற்றும் reliability engineering-இன் ஆழத்துக்குச் செல்கிறது.

இந்தக் கட்டுரை Google AI Blog-இன் reporting-ஐ அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on blog.google