داخل مختبر Trainium في أمازون: رقاقة الذكاء الاصطناعي التي تنافس Nvidia

مختبر الرقاقات في قلب سباق بنية تحتية للذكاء الاصطناعي

بعد فترة وجيزة من إعلان أمازون عن استثمار بقيمة 50 مليار دولار في OpenAI، دعت AWS TechCrunch في جولة خاصة نادرة في منشأة تطوير رقاقة Trainium الخاصة بها — عملية الأجهزة التي أصبحت بهدوء قوة رئيسية في البنية التحتية للذكاء الاصطناعي، وكسبت ثقة بعض عملاء الصناعة الأكثر تطلباً.

تم تطوير خط رقاقة Trainium من قبل Annapurna Labs (التي استحوذت عليها أمازون في 2015)، وتم اعتباره في البداية لعبة تقليل التكاليف لـ AWS: حساب تدريب أرخص لخدمات أمازون الخاصة، مما يقلل الاعتماد على وحدات GPU المكلفة من Nvidia. لكن في 2025 و 2026، تغير شيء ما. انتقلت Anthropic و OpenAI والمراسلات المزعومة من Apple بكميات كبيرة من أحمال العمل إلى Trainium، ليس فقط لأسباب التكلفة بل لأسباب القدرة والتوفر التي لا يمكن لمنتجات Nvidia المحدودة التوريد أن تلبيها بسهولة.

ما الذي يجعل Trainium مختلفاً

توفر رقاقات Trainium من الجيل الثاني، المصممة لتدريب المحولات على نطاق واسع، نهج معماري مختلفاً عن تصميم Nvidia المركز على GPU. بدلاً من إعادة استخدام أجهزة الرسومات لعمليات المصفوفة، تم بناء Trainium خصيصاً لأنماط حسابية محددة تهيمن على تدريب الذكاء الاصطناعي الحديث: مضاعفات المصفوفة الضخمة وآليات الانتباه والاتصالات الكلية الحد التي تزامن التدرجات عبر آلاف الرقاقات في نفس الوقت.

وصف مهندسو AWS في الجولة نسيج الربط المخصص من Trainium 2، الذي يربط الرقاقات بكمون أقل بكثير من التصاميم المنافسة. بالنسبة لعمليات التدريب التي تشمل عشرات الآلاف من الرقاقات، فإن الحمل الإضافي على الاتصالات غالباً ما يكون هو القيد الملزم — الاختناق الذي يحدد ما إذا كان العنقود يدرب بكفاءة أو يقضي معظم وقته في انتظار مزامنة التدرجات. لقد أتت استثمارات أمازون في طبقة النسيج هذه بنتائج في كفاءة القياس متعدد الرقاقات.

علاقات Anthropic و OpenAI

الالتزام العميق من Anthropic مع Trainium موثق جيداً — وقعت الشركة صفقة تاريخية متعددة السنوات مع AWS وقد دربت عدة إصدارات من نماذج Claude الخاصة بها بشكل كبير على سيليكون أمازون المخصص. ما هو جديد هو علاقة OpenAI، التي تم تسميتها رسمياً جنباً إلى جنب مع الاستثمار بقيمة 50 مليار دولار وتتضمن OpenAI تشغيل أحمال عمل التدريب والاستنتاج على Trainium بمقياس كان سيبدو غير معقول قبل 18 شهراً، بالنظر إلى المحاذاة التاريخية لـ OpenAI مع البنية الأساسية Azure من Microsoft.

يتضمن الاتصال Apple على ما يبدو أحمال عمل الاستنتاج لميزات الذكاء الاصطناعي على الجهاز والسحابة — سوق تكون فيها كفاءة الطاقة وتكلفة الاستنتاج لكل وحدة بالغة الأهمية، خاصة على نطاق Apple.

تداعيات على هيمنة Nvidia

يمثل تركيز شركات الذكاء الاصطناعي الرئيسية على Trainium التهديد الأكثر مصداقية لاحتكار GPU الخاص بـ Nvidia في حسابات الذكاء الاصطناعي الذي ظهر حتى الآن. العاملون السابقون — TPU من Google و رقاقات على نطاق الويفر من Cerebras و IPU من Graphcore — التقط أحمال العمل المتخصصة ولكن لم تسحب أبداً عمليات التدريب الرئيسية من أجهزة Nvidia بهذا المقياس.

كان رد Nvidia هو تسريع خارطة الطريق الخاصة بها. توفر معمارية Blackwell، التي الآن في الإنتاج بكميات كبيرة، تحسينات جوهرية في نسبة الإنتاجية من التدريب. لكن قيود الإمداد تظل تحديماً، وقدرة AWS على توفير سعة Trainium غير محدودة تقريباً بسرعة — وهي وظيفة امتلاك علاقات fab الخاصة بها وسلسلة التوريد — تعطيها ميزة هيكلية للعملاء الذين يحتاجون إلى التوسع بسرعة.

بالنسبة للصناعة الأوسع، فإن ظهور بدائل Nvidia الموثوقة قد يضغط تكاليف حساب الذكاء الاصطناعي بمرور الوقت، حتى مع استمرار الحجم المطلق لاستهلاك الحسابات في النمو.

هذا المقالة مبنية على التقارير من TechCrunch. اقرأ المقالة الأصلية.