إطلاق مفتوح بتفاصيل كاشفة على نحو غير معتاد
يكتسب نموذج Nvidia الجديد Nemotron 3 Nano Omni أهميته ليس فقط لأنه نموذج متعدد الوسائط، بل لأن الشركة كشفت عن رؤية ملموسة بشكل غير معتاد لكيفية تجميع مثل هذا النظام. ووفقًا للنص المصدر المقدم، يعالج النموذج النصوص والصور والفيديو والصوت، وهو مصمم لتطبيقات الوكلاء، ومتاح للاستخدام التجاري. كما تطرح Nvidia أوزان النموذج إلى جانب أجزاء من بيانات التدريب وخطوط المعالجة.
هذا المزيج يجعل الإطلاق أكثر من مجرد طرح نموذج جديد آخر. فهو يقدّم لمحة عن التدفقات الهجينة والمتزايدة الاصطناع للبيانات التي تقف وراء أنظمة الذكاء الاصطناعي متعددة الوسائط الحديثة، حيث لا يعتمد التدريب غالبًا على مجموعة نصية نقية واحدة، بل على مخرجات متراكبة من نماذج أخرى كثيرة.
ما الذي بُني النموذج لفعله
يُوصف Nemotron 3 Nano Omni بأنه نموذج مفتوح المصدر متعدد الوسائط يضم 30 مليار معامل، ويستخدم بنية هجينة Mamba-Transformer مع توجيه mixture-of-experts. يتم تفعيل نحو 3 مليارات معامل لكل استعلام. يعمل النموذج على برنامج التشفير البصري C-RADIOv4-H من Nvidia وعلى برنامج التشفير الصوتي Parakeet-TDT، مع نافذة سياق تصل إلى 256,000 رمز. الإنجليزية هي اللغة الوحيدة المدعومة رسميًا.
تقول Nvidia إن النظام موجّه أساسًا لحالات الاستخدام المعتمدة على الوكلاء. ويسرد التقرير المقدم من بين التطبيقات المقصودة: معالجة المستندات، ووكلاء استخدام الكمبيوتر، وتحليل الفيديو والصوت، والتفاعل الصوتي. هذه الصياغة مهمة لأنها تضع النموذج ضمن فئة تتوسع بسرعة من الأنظمة المصممة ليس فقط للإجابة عن المطالبات، بل للعمل عبر الواجهات وأنواع الوسائط المختلفة مع سياق أطول وسير عمل موجّه نحو الفعل.
في عدة معايير تقييم مذكورة في المصدر، يتفوق النموذج على سابقه ويقترب في المنافسة من Qwen3-Omni من Alibaba. ومن أكثر الأرقام لفتًا للانتباه ما ورد في OSWorld، وهو معيار لوكلاء واجهات المستخدم الرسومية، حيث يقول التقرير إن الدقة ارتفعت من 11.1 إلى 47.4 نقطة مقارنة بالإصدار السابق. وتقول Nvidia أيضًا إن الإنتاجية عند مستوى التفاعلية نفسه تصل إلى تسعة أضعاف Qwen3-Omni.




