AIలో తదుపరి bottleneck ఇక training మాత్రమే కాదు
AI business కేంద్రానికి వేగంగా మారుతున్న ఒక సమస్యపై దృష్టి పెట్టడానికి Google మరియు Nvidia, Google Cloud Nextను ఉపయోగించాయి: inference cost. candidate feed ప్రకారం, కంపెనీలు పెద్ద స్థాయిలో AI modelsను సేవలందించే ఖర్చును తగ్గించేందుకు రూపొందించిన ఒక hardware roadmapను వివరించాయి, ఇందులో కొత్త A5X bare-metal instances కూడా ఉన్నాయి.
సంక్షిప్త రూపంలో అయినా, ఇది ప్రాధాన్యతలో ఒక ముఖ్యమైన మార్పు. గత కొన్నేళ్లుగా AI infrastructure చర్చలో ఎక్కువ భాగం మరింత పెద్ద models training చుట్టూ తిరిగింది. కానీ systems productionలోకి వచ్చిన తర్వాత, inference ఒక recurring operational expenseగా మారుతుంది. ఒక user prompt పంపిన ప్రతిసారి, ఒక application modelను call చేసిన ప్రతిసారి, లేదా ఒక agent మరో reasoning round చేసిన ప్రతిసారి చెల్లించాల్సిన ఖర్చు ఇదే.
Inference economics ఇప్పుడు ఎందుకు ముఖ్యమైనవి
AI products viable businessesగా మారేది లేదా ఖరీదైన demonstrationsగా మిగిలిపోవేది inference దశలోనే. ఒక lab, ఫలితమైన model వ్యూహాత్మకంగా ముఖ్యమైనదైతే, అధిక training costsను సమర్థించగలదు. కానీ ఒక cloud customerకు రోజువారీ ఆర్థిక వ్యవస్థ పనిచేయాలి. తక్కువ serving costs marginsను పెంచగలవు, చౌక productsకు మద్దతు ఇవ్వగలవు, లేదా మరింత దూకుడైన performance targetsను అనుమతించగలవు.
అందుకే ఈ తరహా infrastructure announcements వ్యూహాత్మక బరువును కలిగి ఉంటాయి. Google మరియు Nvidia కేవలం మరిన్ని hardware unitsను పంపడం లేదు. consumer chatbots నుంచి enterprise copilots, industrial automation systems వరకు మొత్తం stackలో adoptionను ప్రభావితం చేసే ఒక constraintను వారు address చేస్తున్నారు.


