Google బ్యాక్‌గ్రౌండ్ మరియు ఇంటరాక్టివ్ పనుల చుట్టూ Gemini APIని పునర్వ్యవస్థీకరిస్తోంది

Google Gemini API కోసం Flex మరియు Priority అనే రెండు కొత్త సేవా టియర్‌లను ప్రవేశపెట్టింది. ఇది జనరేటివ్ AI వ్యవస్థలను డెవలపర్లు ఉపయోగించే విధానంలో పెరుగుతున్న విభేదాన్ని ప్రతిబింబించే చర్య. Google ప్రకారం, ఆధునిక AI అనువర్తనాల్లో ఇప్పుడు రెండు వేర్వేరు రకాల పనులు ఎక్కువగా కనిపిస్తున్నాయి: ఆలస్యాన్ని సహించగల బ్యాక్‌గ్రౌండ్ జాబ్స్, మరియు ఎక్కువ విశ్వసనీయత అవసరమైన వినియోగదారు-సామెత పనులు. ఈ రెండు రకాల ట్రాఫిక్‌ను ఒకే synchronous ఇంటర్‌ఫేస్ ద్వారా రూట్ చేసుకునేలా ఈ కొత్త టియర్‌లను రూపొందించారు.

ఇది ధరల నవీకరణలా అనిపించవచ్చు, కానీ అంతకంటే ఎక్కువ. AI అనువర్తన రూపకల్పన ఏ దిశగా వెళ్తోందో చెప్పే మౌలిక సదుపాయాల ప్రకటన ఇది.

కొత్త టియర్‌లు ఏమి చేస్తాయి

Flex Inference అనేది ఖర్చును తగ్గించడానికి రూపొందించిన ఎంపిక. Standard APIతో పోలిస్తే request criticalityని తగ్గించడం ద్వారా ఇది 50% ధర పొదుపును ఇస్తుందని Google చెబుతోంది. దీని అర్థం, తక్కువ ఖర్చు కోసం డెవలపర్లు తక్కువ విశ్వసనీయతను, ఎక్కువ లేటెన్సీని అంగీకరిస్తారు. బ్యాక్‌గ్రౌండ్ CRM అప్‌డేట్‌లు, పెద్ద స్థాయి పరిశోధనా సిమ్యులేషన్‌లు, అలాగే మోడల్‌ను వెంటనే వినియోగదారు ఒత్తిడి లేకుండా “browse” చేయించగల లేదా “think” చేయించగల ఏజెంటిక్ వర్క్‌ఫ్లోల కోసం Flex‌ను కంపెనీ సూచిస్తోంది.

Priority Inference దీనికి విరుద్ధ దిశలో ఉంటుంది. ఇది అత్యధిక స్థాయి హామీని ప్రీమియం ధరతో అందిస్తుందని Google చెబుతోంది. స్పందన విశ్వసనీయత ఖర్చును కనిష్ఠీకరించడం కంటే ముఖ్యమైన chatbots మరియు copilots వంటి కీలక ఇంటరాక్టివ్ అనువర్తనాల కోసం ఇది ఉద్దేశించబడింది.

ప్రధాన డిజైన్ నిర్ణయం ఏమిటంటే, రెండు టియర్‌లూ standard synchronous endpoints‌ను ఉపయోగిస్తాయి. సాంప్రదాయ serving మరియు asynchronous Batch API మధ్య ఆర్కిటెక్చర్‌ను విడగొట్టాల్సిన సంక్లిష్టతను తొలగించేందుకే ఇది అని Google స్పష్టంగా చెబుతోంది.

ఇది డెవలపర్లకు ఎందుకు ముఖ్యం

ఈ ప్రకటనలో అత్యంత ముఖ్యమైన భాగం కేవలం తక్కువ ఖర్చు లేదా ఎక్కువ హామీ కాదు. ఆర్కిటెక్చర్‌ను సులభతరం చేయాలన్న ప్రయత్నం. ఇప్పటివరకు, డెవలపర్లు వేర్వేరు AI పనుల కోసం తరచుగా వేర్వేరు నమూనాలను నిర్వహించాల్సి వచ్చేది: ఇంటరాక్టివ్ పనులకు synchronous APIs, తక్కువ అత్యవసరత గల చవకైన పనులకు asynchronous batch flows.

ఆ విభజనను కుదించడానికి Google ప్రయత్నిస్తోంది. ఇప్పుడు డెవలపర్లు వేర్వేరు request models చుట్టూ workflows‌ను తిరిగి రూపొందించకుండా, ఒకే interface ద్వారా service tier‌ను సర్దుబాటు చేసుకోవచ్చు. AI వ్యవస్థలు మరింత ఏజెంటిక్‌గా మారుతూ, ఒకే ఉత్పత్తిలోనే వినియోగదారుడికి కనిపించే చర్యలు మరియు దాగి ఉన్న బ్యాక్‌గ్రౌండ్ ప్రాసెసింగ్‌ను కలిపి ఉపయోగిస్తున్న సందర్భంలో ఇది ప్రత్యేకంగా ముఖ్యమైనది.

అనుభవంలో, Gemini APIని కొత్త అనువర్తన వాస్తవానికి సరిపడేలా సర్దుబాటు చేస్తున్నారు. కొన్ని requests సంభాషణలో భాగం. మరికొన్నవి బ్యాక్‌గ్రౌండ్‌లో సిద్ధం చేసే, పరిశోధించే, enrich చేసే లేదా మూల్యాంకనం చేసే కనిపించని పని. వాటిని first-class service categories‌గా పరిగణించడం ఆచరణాత్మకంగా సరైనది.

ఏజెంటిక్ AI ఆర్థికాలు

Google ధరల సందేశం కూడా గమనించదగినది. లేటెన్సీని సహించగల పనుల కోసం 50% చౌకైన టియర్‌ను అందించడం ద్వారా, చాలా మంది డెవలపర్లు AI వినియోగాన్ని పెంచాలనుకుంటున్నప్పటికీ, ప్రతి పనికీ interactive-grade రేట్లు చెల్లించడాన్ని సమర్థించలేరని కంపెనీ అంగీకరిస్తోంది. అనువర్తనాలు మరింత స్వయంచాలకంగా మారేకొద్దీ, అత్యవసరం కాని model calls పరిమాణం వేగంగా పెరగవచ్చు.

అందుకే tiering ఆర్థికపరంగా వ్యూహాత్మకం. background cognitionపై తక్కువ ఖర్చు చేయడానికి, అదే సమయంలో failure లేదా delay అనుమతించలేని చోట ఎక్కువ చెల్లించడానికి కంపెనీలకు మార్గం కావాలి. Flex మరియు Priority ఆ విభజనను వాస్తవంగా అధికారికీకరిస్తాయి.

కాబట్టి ఈ ప్రకటన మరింత పరిపక్వమవుతున్న మార్కెట్‌ను సూచిస్తోంది. ప్రారంభ జనరేటివ్ AI ఉత్పత్తులు తరచుగా model access‌ను ఒకే premium service‌గా చూశాయి. మరింత అభివృద్ధి చెందిన deployments మాత్రం urgency, reliability, budget ఆధారంగా provider‌లు విభజించాల్సిన అవసరాన్ని తెస్తున్నాయి.

మరింత స్పష్టమైన control surface

ఈ మార్పును Google డెవలపర్లకు “granular control over cost and reliability” ఇస్తున్నట్లు వివరిస్తోంది. ఇదే సరైన దృక్పథం. కంపెనీ కేవలం models‌కు access అమ్మడం లేదు. ఒక అనువర్తనంలోని వేర్వేరు భాగాల్లో ఆ models ఎలా వినియోగించబడుతున్నాయో దానిపై operational controlను అమ్ముతోంది.

ఇది పరిశ్రమ అంతటా ప్రామాణికంగా మారే అవకాశం ఉంది. AI workloads విభిన్నమవుతున్న కొద్దీ, డెవలపర్లు model identityకన్నా product logic‌కు సరిపోయే inference ఎంపికలను మరింతగా ఆశిస్తారు. ఏజెంటిక్ softwareను urgent మరియు non-urgent intelligence మిశ్రమంగా providers ఇప్పుడు చూస్తున్నారని చూపించే స్పష్టమైన సంకేతాల్లో Google కొత్త టియర్‌లు ఒకటి; వాటికి వేర్వేరు service requirements ఉంటాయి.

Geminiపై నిర్మిస్తున్న బృందాలకు, ఆచరణాత్మక takeaway వెంటనే వస్తుంది. అదే synchronous API surface‌ను వదలకుండా, వారు ఇప్పుడు చవకైన background inference మరియు premium interactive inference మధ్య ఎంపిక చేసుకోవచ్చు. మార్కెట్ స్థాయిలో చూస్తే, takeaway మరింత పెద్దది: AI platform పోటీ model quality మాత్రమే కాకుండా, workload economics మరియు reliability engineering లోకి మరింత లోతుగా సాగుతోంది.

ఈ వ్యాసం Google AI Blog నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on blog.google