AI-யின் அடுத்த bottleneck இனி training மட்டும் அல்ல
Google மற்றும் Nvidia, AI business-இன் மையத்துக்கு வேகமாக நகர்ந்து வரும் ஒரு பிரச்சினை மீது கவனம் செலுத்த Google Cloud Next-ஐ பயன்படுத்தினர்: inference cost. candidate feed-ன் படி, நிறுவனங்கள் பெரிய அளவில் AI models-ஐ சேவை செய்வதற்கான செலவை சமாளிக்க வடிவமைக்கப்பட்ட ஒரு hardware roadmap-ஐ விளக்கின, அதில் புதிய A5X bare-metal instances அடங்கும்.
சுருக்கமாகவே எடுத்தாலும், இது கவனத்தின் ஒரு முக்கிய மாற்றமாகும். கடந்த சில ஆண்டுகளாக AI infrastructure பற்றிய உரையாடலின் பெரும்பகுதி தொடர்ந்து பெரிய models-ஐ training செய்வதைச் சுற்றியே இருந்தது. ஆனால் systems production-க்கு சென்றவுடன், inference ஒரு மீளச்சுழலும் operational expense ஆகிறது. ஒரு user prompt அனுப்பும் போதும், ஒரு application model-ஐ அழைக்கும் போதும், அல்லது ஒரு agent இன்னொரு reasoning round-ஐ மேற்கொள்ளும் போதும் செலுத்தப்படும் செலவு இதுதான்.
Inference economics இப்போது ஏன் முக்கியம்
AI products எங்கு viable businesses ஆக மாறுகின்றன, எங்கு விலை உயர்ந்த demonstrations ஆகவே இருக்கின்றன என்பதற்கான இடமே inference. ஒரு lab-க்கு உயர்ந்த training செலவுகளை நியாயப்படுத்த முடியும், உருவான model மூலோபாய ரீதியாக முக்கியமானதாக இருந்தால். ஆனால் cloud customer-க்கு நாள்-to-நாள் பொருளாதாரம் வேலை செய்ய வேண்டும். குறைந்த serving costs margins-ஐ விரிவுபடுத்தலாம், மலிவான products-ஐ ஆதரிக்கலாம், அல்லது மேலும் தீவிரமான performance targets-ஐ அனுமதிக்கலாம்.
அதனால்தான் இத்தகைய infrastructure announcements மூலோபாய முக்கியத்துவம் பெறுகின்றன. Google மற்றும் Nvidia வெறும் கூடுதல் hardware-ஐ அனுப்பவில்லை. consumer chatbots முதல் enterprise copilots மற்றும் industrial automation systems வரை முழு stack-இல் adoption-ஐ பாதிக்கும் ஒரு கட்டுப்பாட்டை அவர்கள் address செய்கிறார்கள்.


