Amazon-এর Trainium ল্যাবের ভিতরে: Nvidia-কে টেক্কা দিচ্ছে যে AI চিপ

AI Infrastructure Race-এর কেন্দ্রে থাকা চিপ ল্যাব

Amazon OpenAI-তে $50 billion investment ঘোষণা করার কিছুক্ষণ পর, AWS তার Trainium chip development facility-এর এক বিরল private tour-এর জন্য TechCrunch-কে আমন্ত্রণ জানায় — এমন একটি hardware operation যা নীরবে AI infrastructure-এ একটি বড় শক্তিতে পরিণত হয়েছে, এবং শিল্পের সবচেয়ে demanding customers-এর কয়েকজনকে আকৃষ্ট করেছে।

Annapurna Labs (যা Amazon 2015 সালে acquired করেছিল) দ্বারা তৈরি Trainium chip line প্রথমে AWS-এর জন্য একটি cost-reduction play হিসেবে দেখা হয়েছিল: Amazon-এর নিজস্ব services-এর জন্য সস্তা training compute, যাতে Nvidia-এর ব্যয়বহুল GPUs-এর ওপর নির্ভরতা কমে। কিন্তু 2025 এবং 2026-এ কিছু বদলাল। Anthropic, OpenAI, এবং reportedly Apple significant workloads Trainium-এ সরিয়েছে, শুধু cost reasons-এর জন্য নয়, capability এবং availability reasons-এর জন্যও, যা Nvidia-এর supply-constrained products সহজে পূরণ করতে পারেনি।

Trainium-কে আলাদা করে কী

বড় আকারের transformer training-এর জন্য তৈরি second-generation Trainium chips, Nvidia-এর GPU-centric design থেকে ভিন্ন একটি architectural approach দেয়। Graphics hardware-কে matrix operations-এর জন্য পুনঃব্যবহার করার বদলে, Trainium purpose-built এমন computational patterns-এর জন্য যা আধুনিক AI training-এ আধিপত্য করে: বিশাল matrix multiplications, attention mechanisms, এবং all-reduce communications যা হাজার হাজার chips জুড়ে gradients-কে একসাথে synchronize করে।

Tour-এর সময় AWS engineers Trainium 2-এর custom interconnect fabric বর্ণনা করেন, যা chips-কে competing designs-এর তুলনায় substantially lower latency-তে যুক্ত করে। Tens of thousands of chips জুড়ে training runs-এর ক্ষেত্রে, communication overhead প্রায়ই binding constraint হয় — সেই bottleneck যা নির্ধারণ করে cluster কার্যকরভাবে train করবে নাকি gradient synchronization-এর জন্য বেশিরভাগ সময় অপেক্ষা করবে। এই fabric layer-এ Amazon-এর বিনিয়োগ multi-chip scaling efficiency-তে লাভ দিয়েছে।

Anthropic US আদেশের পর Fable 5 ও Mythos 5 স্থগিত করল

জাতীয় নিরাপত্তা-সংক্রান্ত উদ্বেগ এবং একটি রিপোর্ট করা jailbreak ঝুঁকির সঙ্গে যুক্ত মার্কিন সরকারি আদেশের পর Anthropic তার নতুন Fable 5 এবং Mythos 5 মডেলের গ্রাহক অ্যাক্সেস বন্ধ করে দিয়েছে।

Read article

Anthropic এবং OpenAI সম্পর্ক

Trainium-এর প্রতি Anthropic-এর গভীর commitment সুপরিচিত — কোম্পানিটি AWS-এর সঙ্গে একটি landmark multi-year deal সই করেছে এবং তার Claude models-এর কয়েকটি version Amazon-এর custom silicon-এর ওপর যথেষ্ট পরিমাণে trained করেছে। নতুন বিষয়টি হলো OpenAI সম্পর্ক, যা $50 billion investment-এর সঙ্গে formalized হয়েছে এবং এতে OpenAI training ও inference workloads Trainium-এ এমন স্কেলে চালাচ্ছে যা 18 মাস আগে, Microsoft-এর Azure infrastructure-এর সঙ্গে OpenAI-এর ঐতিহাসিক alignment বিবেচনায়, অবাস্তব বলে মনে হতো।

Apple-এর সঙ্গে সংযোগ reportedly on-device এবং cloud AI features-এর জন্য inference workloads জড়িত — এমন একটি বাজার যেখানে power efficiency এবং cost per inference Apple-এর scale-এ অত্যন্ত গুরুত্বপূর্ণ।

Nvidia-এর আধিপত্যের প্রভাব

Trainium-এ বড় AI কোম্পানিগুলোর কেন্দ্রীভূত হওয়া AI compute-এ Nvidia-এর GPU monopoly-এর বিরুদ্ধে এখন পর্যন্ত সবচেয়ে বিশ্বাসযোগ্য threat। আগের challengers — Google-এর TPUs, Cerebras-এর wafer-scale chips, Graphcore-এর IPUs — niche workloads দখল করেছিল, কিন্তু এই scale-এ কখনও flagship training runs Nvidia hardware থেকে সরিয়ে নিতে পারেনি।

Nvidia-এর প্রতিক্রিয়া হলো নিজের roadmap দ্রুততর করা। এখন volume production-এ থাকা Blackwell architecture training throughput-এ substantial improvements দেয়। কিন্তু supply constraints এখনো একটি challenge, এবং AWS-এর নিজের fab relationships ও supply chain-এর কারণে virtually unlimited Trainium capacity দ্রুত provision করার ক্ষমতা আছে, যা দ্রুত scale করতে চাওয়া customers-এর জন্য একটি structural advantage দেয়।

বিস্তৃত শিল্পের জন্য, credible Nvidia alternatives-এর উত্থান সময়ের সঙ্গে AI compute costs কমাতে পারে, যদিও compute consumption-এর absolute scale বাড়তে থাকে।

এই নিবন্ধটি TechCrunch-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধ পড়ুন.

Congress lets decades-old spying law lapse amid Trump

বর্ধিত মেয়াদ পাস করতে কংগ্রেস ব্যর্থ হওয়ায় সেকশন 702 মেয়াদোত্তীর্ণ হতে চলেছে

২০০৮ সালের পর প্রথমবার, ফরেন ইন্টেলিজেন্স সারভেইলেন্স অ্যাক্টের সেকশন 702 মেয়াদোত্তীর্ণ হতে যাচ্ছে, কারণ কংগ্রেস এমনকি স্বল্পমেয়াদি বর্ধিত মেয়াদও অনুমোদন করতে ব্যর্থ হয়েছে।

Read article

Originally published on techcrunch.com