AI Infrastructure Race-இன் மையத்தில் உள்ள சிப் ஆய்வகம்

Amazon OpenAI-யில் $50 billion investment-ஐ அறிவித்த சிறிது நேரத்துக்குப் பிறகு, AWS அதன் Trainium chip development facility-க்கு அரிதான private tour-க்கு TechCrunch-ஐ அழைத்தது — AI infrastructure-இல் அமைதியாக ஒரு முக்கிய சக்தியாக மாறிய hardware operation, துறையின் மிகவும் demanding customers-இல் சிலரை கவர்ந்து வருகிறது.

Annapurna Labs (Amazon 2015-இல் acquired செய்தது) உருவாக்கிய Trainium chip line, முதலில் AWS-க்கு ஒரு cost-reduction play ஆகவே பார்க்கப்பட்டது: Amazon-இன் சொந்த சேவைகளுக்கான குறைந்த செலவிலான training compute, Nvidia-வின் விலை உயர்ந்த GPUs-இல் சார்பைக் குறைப்பது. ஆனால் 2025 மற்றும் 2026-இல், ஏதோ மாறியது. Anthropic, OpenAI, மற்றும் reportedly Apple ஆகியவை significant workloads-ஐ Trainium-க்கு மாற்றியுள்ளனர்; அது cost reasons-க்கு மட்டுமல்ல, capability மற்றும் availability reasons-க்காகவும், Nvidia-வின் supply-constrained products எளிதில் பூர்த்தி செய்ய முடியாத காரணங்கள்.

Trainium-ஐ வேறுபடுத்துவது என்ன

பெரிய அளவிலான transformer training-க்கு உருவாக்கப்பட்ட இரண்டாம் தலைமுறை Trainium chips, Nvidia-வின் GPU-centric design-க்கு மாறான architectural approach-ஐ வழங்குகின்றன. Graphics hardware-ஐ matrix operations-க்கு மறுபயன்படுத்துவதற்குப் பதிலாக, Trainium நவீன AI training-ஐ ஆட்சி செய்யும் computational patterns-க்கு purpose-built: மிகப்பெரிய matrix multiplications, attention mechanisms, மற்றும் ஆயிரக்கணக்கான chips across gradients-ஐ ஒரே நேரத்தில் synchronize செய்யும் all-reduce communications.

சுற்றுப்பயணத்தில் இருந்த AWS engineers, Trainium 2-இன் custom interconnect fabric-ஐ விவரித்தனர்; இது competing designs-ஐ விட குறிப்பிடத்தக்க அளவில் குறைந்த latency-யுடன் chips-ஐ இணைக்கிறது. Tens of thousands of chips-ஐ உள்ளடக்கும் training runs-க்கு, communication overhead பெரும்பாலும் binding constraint ஆகும் — cluster திறம்பட train ஆகுமா அல்லது gradient synchronization-க்காக பெரும்பாலான நேரத்தை காத்திருப்பதில் செலவிடுமா என்பதை தீர்மானிக்கும் bottleneck அது. இந்த fabric layer-இல் Amazon செய்த முதலீடு multi-chip scaling efficiency-இல் பலனளித்துள்ளது.

Anthropic மற்றும் OpenAI உறவுகள்

Trainium-க்கு Anthropic-இன் ஆழமான commitment நன்றாக documented-ஆக உள்ளது — நிறுவனம் AWS-யுடன் ஒரு landmark multi-year deal-ஐ கையெழுத்திட்டுள்ளது மற்றும் அதன் Claude models-இன் பல versions-ஐ Amazon-இன் custom silicon-ல் கணிசமாக trained செய்துள்ளது. புதிதாக இருப்பது OpenAI உறவு; இது $50 billion investment-உடன் formalized செய்யப்பட்டது மற்றும் இதில் OpenAI, Microsoft Azure infrastructure-உடன் இருந்த வரலாற்று alignment-ஐ கருத்தில் கொள்ளும்போது, 18 மாதங்களுக்கு முன்பு சாத்தியமற்றதாக தோன்றிய அளவில் Trainium-ல் training மற்றும் inference workloads-ஐ இயக்குகிறது.

Apple-உடனான தொடர்பு reportedly on-device மற்றும் cloud AI features-க்கான inference workloads-ஐ உள்ளடக்கியது — Apple scale-இல் power efficiency மற்றும் cost per inference மிக முக்கியமான சந்தை அது.

Nvidia ஆதிக்கத்திற்கான விளைவுகள்

முக்கிய AI நிறுவனங்கள் Trainium-ஐ மையப்படுத்துவது, AI compute-இல் Nvidia-வின் GPU monopoly-க்கு இதுவரை தோன்றிய மிக நம்பகமான threat-ஐ பிரதிபலிக்கிறது. முந்தைய challengers — Google-ன் TPUs, Cerebras-ன் wafer-scale chips, Graphcore-ன் IPUs — niche workloads-ஐ மட்டுமே பிடித்தன; ஆனால் இந்த அளவில் flagship training runs-ஐ Nvidia hardware-இல் இருந்து எடுக்கவில்லை.

Nvidia-வின் பதில் தனது own roadmap-ஐ வேகப்படுத்துவதாக இருந்தது. இப்போது volume production-இல் உள்ள Blackwell architecture, training throughput-இல் substantial improvements-ஐ வழங்குகிறது. ஆனால் supply constraints இன்னும் ஒரு challenge-ஆக உள்ளன, மேலும் AWS-க்கு தனது own fab relationships மற்றும் supply chain ownership காரணமாக virtually unlimited Trainium capacity-ஐ விரைவாக provision செய்யும் திறன் இருப்பது, வேகமாக scale செய்ய வேண்டிய customers-க்கு ஒரு structural advantage-ஐ வழங்குகிறது.

பரந்த துறைக்கு, credible Nvidia alternatives உருவாவது, compute consumption-இன் absolute scale தொடர்ந்து அதிகரித்தாலும், காலப்போக்கில் AI compute costs-ஐ குறைக்கும் வாய்ப்புள்ளது.

இந்த கட்டுரை TechCrunch செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on techcrunch.com