AIలో తదుపరి bottleneck ఇక training మాత్రమే కాదు

AI business కేంద్రానికి వేగంగా మారుతున్న ఒక సమస్యపై దృష్టి పెట్టడానికి Google మరియు Nvidia, Google Cloud Next‌ను ఉపయోగించాయి: inference cost. candidate feed ప్రకారం, కంపెనీలు పెద్ద స్థాయిలో AI models‌ను సేవలందించే ఖర్చును తగ్గించేందుకు రూపొందించిన ఒక hardware roadmap‌ను వివరించాయి, ఇందులో కొత్త A5X bare-metal instances కూడా ఉన్నాయి.

సంక్షిప్త రూపంలో అయినా, ఇది ప్రాధాన్యతలో ఒక ముఖ్యమైన మార్పు. గత కొన్నేళ్లుగా AI infrastructure చర్చలో ఎక్కువ భాగం మరింత పెద్ద models training చుట్టూ తిరిగింది. కానీ systems production‌లోకి వచ్చిన తర్వాత, inference ఒక recurring operational expense‌గా మారుతుంది. ఒక user prompt పంపిన ప్రతిసారి, ఒక application model‌ను call చేసిన ప్రతిసారి, లేదా ఒక agent మరో reasoning round చేసిన ప్రతిసారి చెల్లించాల్సిన ఖర్చు ఇదే.

Inference economics ఇప్పుడు ఎందుకు ముఖ్యమైనవి

AI products viable businesses‌గా మారేది లేదా ఖరీదైన demonstrations‌గా మిగిలిపోవేది inference దశలోనే. ఒక lab, ఫలితమైన model వ్యూహాత్మకంగా ముఖ్యమైనదైతే, అధిక training costs‌ను సమర్థించగలదు. కానీ ఒక cloud customer‌కు రోజువారీ ఆర్థిక వ్యవస్థ పనిచేయాలి. తక్కువ serving costs margins‌ను పెంచగలవు, చౌక products‌కు మద్దతు ఇవ్వగలవు, లేదా మరింత దూకుడైన performance targets‌ను అనుమతించగలవు.

అందుకే ఈ తరహా infrastructure announcements వ్యూహాత్మక బరువును కలిగి ఉంటాయి. Google మరియు Nvidia కేవలం మరిన్ని hardware units‌ను పంపడం లేదు. consumer chatbots నుంచి enterprise copilots, industrial automation systems వరకు మొత్తం stack‌లో adoption‌ను ప్రభావితం చేసే ఒక constraint‌ను వారు address చేస్తున్నారు.