असाधारण रूप से खुलासा करने वाले विवरणों के साथ एक ओपन रिलीज़
Nvidia का नया Nemotron 3 Nano Omni सिर्फ इसलिए उल्लेखनीय नहीं है कि यह एक मल्टीमोडल मॉडल है, बल्कि इसलिए भी कि कंपनी ने यह दिखाने वाला असामान्य रूप से ठोस विवरण साझा किया है कि ऐसा सिस्टम कैसे बनाया जाता है। उपलब्ध स्रोत पाठ के अनुसार, यह मॉडल टेक्स्ट, छवियाँ, वीडियो और ऑडियो संभालता है, एजेंटिक अनुप्रयोगों के लिए तैयार किया गया है, और व्यावसायिक उपयोग के लिए स्वीकृत है। Nvidia मॉडल वेट्स के साथ-साथ प्रशिक्षण डेटा और पाइपलाइनों के कुछ हिस्से भी जारी कर रही है।
यह संयोजन इस लॉन्च को एक साधारण मॉडल रिलीज़ से आगे ले जाता है। यह आधुनिक मल्टीमोडल AI प्रणालियों के पीछे की increasingly hybrid और synthetic data flows की झलक देता है, जहाँ प्रशिक्षण अक्सर एक शुद्ध कॉर्पस पर नहीं, बल्कि कई अन्य मॉडलों के स्तरित आउटपुट पर निर्भर करता है।
मॉडल किसके लिए बनाया गया है
Nemotron 3 Nano Omni को 30-बिलियन-पैरामीटर वाला खुला-स्रोत मल्टीमोडल मॉडल बताया गया है, जिसमें Mamba-Transformer हाइब्रिड और mixture-of-experts रूटिंग है। प्रति क्वेरी लगभग तीन अरब पैरामीटर सक्रिय होते हैं। मॉडल Nvidia के C-RADIOv4-H vision encoder और Parakeet-TDT audio encoder पर चलता है, और इसका context window 256,000 tokens तक जाता है। अंग्रेज़ी ही आधिकारिक रूप से समर्थित भाषा है।
Nvidia के अनुसार, यह सिस्टम मुख्य रूप से एजेंटिक उपयोग मामलों के लिए लक्षित है। स्रोत रिपोर्ट में document processing, computer-use agents, video and audio analysis, और voice interaction को इसके इच्छित उपयोगों में शामिल बताया गया है। यह फ्रेमिंग महत्वपूर्ण है क्योंकि यह मॉडल को उस तेज़ी से बढ़ते वर्ग में रखती है, जो सिर्फ़ प्रॉम्प्ट्स के जवाब देने के बजाय interfaces और media types के बीच लंबे context और action-oriented workflows के साथ काम करने के लिए बनाए जाते हैं।
स्रोत में उद्धृत कई benchmarks पर यह मॉडल अपने पूर्ववर्ती से बेहतर प्रदर्शन करता है और Alibaba के Qwen3-Omni के क़रीब प्रतिस्पर्धा करता है। एक खास तौर पर दिलचस्प आँकड़ा OSWorld पर है, जो GUI agents के लिए benchmark है; रिपोर्ट के अनुसार, accuracy पिछले संस्करण की 11.1 से बढ़कर 47.4 points हो गई। Nvidia यह भी कहती है कि उसी interactivity स्तर पर throughput Qwen3-Omni की तुलना में नौ गुना तक अधिक है।




