AI-யின் அடுத்த bottleneck இனி training மட்டும் அல்ல

Google மற்றும் Nvidia, AI business-இன் மையத்துக்கு வேகமாக நகர்ந்து வரும் ஒரு பிரச்சினை மீது கவனம் செலுத்த Google Cloud Next-ஐ பயன்படுத்தினர்: inference cost. candidate feed-ன் படி, நிறுவனங்கள் பெரிய அளவில் AI models-ஐ சேவை செய்வதற்கான செலவை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு hardware roadmap-ஐ விளக்கின, அதில் புதிய A5X bare-metal instances அடங்கும்.

சுருக்கமாகவே எடுத்தாலும், இது கவனத்தின் ஒரு முக்கிய மாற்றமாகும். கடந்த சில ஆண்டுகளாக AI infrastructure பற்றிய உரையாடலின் பெரும்பகுதி தொடர்ந்து பெரிய models-ஐ training செய்வதைச் சுற்றியே இருந்தது. ஆனால் systems production-க்கு சென்றவுடன், inference ஒரு மீளச்சுழலும் operational expense ஆகிறது. ஒரு user prompt அனுப்பும் போதும், ஒரு application model-ஐ அழைக்கும் போதும், அல்லது ஒரு agent இன்னொரு reasoning round-ஐ மேற்கொள்ளும் போதும் செலுத்தப்படும் செலவு இதுதான்.

Inference economics இப்போது ஏன் முக்கியம்

AI products எங்கு viable businesses ஆக மாறுகின்றன, எங்கு விலை உயர்ந்த demonstrations ஆகவே இருக்கின்றன என்பதற்கான இடமே inference. ஒரு lab-க்கு உயர்ந்த training செலவுகளை நியாயப்படுத்த முடியும், உருவான model மூலோபாய ரீதியாக முக்கியமானதாக இருந்தால். ஆனால் cloud customer-க்கு நாள்-to-நாள் பொருளாதாரம் வேலை செய்ய வேண்டும். குறைந்த serving costs margins-ஐ விரிவுபடுத்தலாம், மலிவான products-ஐ ஆதரிக்கலாம், அல்லது மேலும் தீவிரமான performance targets-ஐ அனுமதிக்கலாம்.

அதனால்தான் இத்தகைய infrastructure announcements மூலோபாய முக்கியத்துவம் பெறுகின்றன. Google மற்றும் Nvidia வெறும் கூடுதல் hardware-ஐ அனுப்பவில்லை. consumer chatbots முதல் enterprise copilots மற்றும் industrial automation systems வரை முழு stack-இல் adoption-ஐ பாதிக்கும் ஒரு கட்டுப்பாட்டை அவர்கள் address செய்கிறார்கள்.

Cloud போட்டி efficiency போட்டியாக மாறுகிறது

roadmap Google Cloud Next-இல் வழங்கப்பட்டதாகவும், inference costs-ஐ “at scale” address செய்ய உருவாக்கப்பட்டதாகவும் feed குறிப்பாக சொல்கிறது. அந்த சொற்றொடர் முக்கியமானது, ஏனெனில் cloud AI போட்டி இனி accelerators-க்கு அணுகல் பற்றி மட்டும் அல்ல. அவற்றை எவ்வளவு திறமையாக deploy, schedule, மற்றும் உண்மையான workloads-க்கு பொருந்தும் instances மூலம் customers-க்கு வெளிப்படுத்த முடியும் என்பதையும் பற்றியது.

A5X bare-metal instances பற்றிய குறிப்பு, உயர் செயல்திறன் infrastructure மீது அதிக நேரடி கட்டுப்பாட்டை விரும்பும் customers-ஐ Google குறிவைக்கிறது என்பதைக் காட்டுகிறது. Software மற்றும் hardware இடையிலான அடுக்குகளை குறைப்பதால் பெரிய AI deployments-க்கு bare-metal offerings முக்கியமாக இருக்கலாம்; இது performance மற்றும் tuning flexibility-ஐ மேம்படுத்த உதவக்கூடும். வழங்கப்பட்ட உரையில் முழு technical details இல்லை, ஆகவே குறிப்பிட்ட gains-ஐ உறுதியாகச் சொல்லுவது தவறு. ஆனால் positioning தெளிவாக உள்ளது: இது தீவிரமான production inference-க்கு உருவாக்கப்பட்ட infrastructure.

Nvidia ஏன் மையமாகவே உள்ளது

Nvidia-வின் இருப்பும் அதே அளவு முக்கியமானது. நிறுவனம் AI infrastructure-இல் வரையறுக்கும் பங்கு வகித்து வருகிறது, மேலும் முக்கிய cloud platforms-உடன் இணைந்த announcements, capacity, optimization, மற்றும் roadmap alignment எங்கு செல்கின்றன என்பதைக் காட்டும் முக்கிய வழிகளில் ஒன்றாகிவிட்டன. Google மற்றும் Nvidia inference cost-க்கு ஒரு பகிர்ந்த பதிலை வழங்கும்போது, efficiency என்பது இனி பின்னணிக் கவலை அல்ல; அது first-order feature என customers-க்கு சொல்லுகிறார்கள்.

இது market maturity மாறிவருவதைவும் காட்டுகிறது. Enterprises model demos-ஆல் மட்டும் இப்போது குறைவாகக் கவரப்படுகின்றன; throughput, latency, deployment fit, மற்றும் budget predictability மீது அதிக கவனம் செலுத்துகின்றன. வேறு வார்த்தைகளில் சொன்னால், ஒரு model ஒரு task-ஐ செய்ய முடியுமா என்பதே இனி ஒரே கேள்வி அல்ல. அந்த task-ஐ நம்பகமாகவும் லாபகரமாகவும் மில்லியன் கணக்கான முறை வழங்க முடியுமா என்பதே கேள்வி.

அடுத்த AI கட்டத்தின் அறிகுறி

இந்த announcement-ன் விரிவான முக்கியத்துவம் என்னவெனில் AI infrastructure இன்னும் ஒழுங்குபடுத்தப்பட்ட phase-இல் நுழைகிறது. முதல் wave capability பற்றியது. அடுத்த wave economics பற்றியது. நிறுவனங்கள் இன்னும் வலுவான models-ஐ விரும்புகின்றன, ஆனால் சேவை செய்யும் அளவுக்கு மலிவாகவும், scale செய்யும் அளவுக்கு நிலைத்ததாகவும் இருக்கும் systems-வும் தேவை.

அதனால்தான் inference cost reduction ஒரு முக்கிய தொழில் கதையாக கவனிக்கப்பட வேண்டும். customer pain மிக அதிகமாக உள்ளது என்று hyperscalers நம்பும் இடத்தை இது சுட்டிக்காட்டுகிறது. enterprise AI-இல் winners-ஐ வேறுபடுத்தக்கூடிய அம்சத்தையும் இது உணர்த்துகிறது: raw model quality மட்டும் அல்ல, அந்த quality-ஐ production-இல் மலிவாக மாற்றும் திறன்.

Google மற்றும் Nvidia, market இந்த செய்திக்கு தயாராக உள்ளது என்று பந்தயம் கட்டுகின்றன. கிடைக்கும் evidence, அவர்கள் சரி என்பதையே அதிகரித்து காட்டுகிறது.

இந்த கட்டுரை AI News செய்தி அறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on artificialintelligence-news.com