असाधारण रूप से खुलासा करने वाले विवरणों के साथ एक ओपन रिलीज़
Nvidia का नया Nemotron 3 Nano Omni सिर्फ इसलिए उल्लेखनीय नहीं है कि यह एक मल्टीमोडल मॉडल है, बल्कि इसलिए भी कि कंपनी ने यह दिखाने वाला असामान्य रूप से ठोस विवरण साझा किया है कि ऐसा सिस्टम कैसे बनाया जाता है। उपलब्ध स्रोत पाठ के अनुसार, यह मॉडल टेक्स्ट, छवियाँ, वीडियो और ऑडियो संभालता है, एजेंटिक अनुप्रयोगों के लिए तैयार किया गया है, और व्यावसायिक उपयोग के लिए स्वीकृत है। Nvidia मॉडल वेट्स के साथ-साथ प्रशिक्षण डेटा और पाइपलाइनों के कुछ हिस्से भी जारी कर रही है।
यह संयोजन इस लॉन्च को एक साधारण मॉडल रिलीज़ से आगे ले जाता है। यह आधुनिक मल्टीमोडल AI प्रणालियों के पीछे की increasingly hybrid और synthetic data flows की झलक देता है, जहाँ प्रशिक्षण अक्सर एक शुद्ध कॉर्पस पर नहीं, बल्कि कई अन्य मॉडलों के स्तरित आउटपुट पर निर्भर करता है।
मॉडल किसके लिए बनाया गया है
Nemotron 3 Nano Omni को 30-बिलियन-पैरामीटर वाला खुला-स्रोत मल्टीमोडल मॉडल बताया गया है, जिसमें Mamba-Transformer हाइब्रिड और mixture-of-experts रूटिंग है। प्रति क्वेरी लगभग तीन अरब पैरामीटर सक्रिय होते हैं। मॉडल Nvidia के C-RADIOv4-H vision encoder और Parakeet-TDT audio encoder पर चलता है, और इसका context window 256,000 tokens तक जाता है। अंग्रेज़ी ही आधिकारिक रूप से समर्थित भाषा है।
Nvidia के अनुसार, यह सिस्टम मुख्य रूप से एजेंटिक उपयोग मामलों के लिए लक्षित है। स्रोत रिपोर्ट में document processing, computer-use agents, video and audio analysis, और voice interaction को इसके इच्छित उपयोगों में शामिल बताया गया है। यह फ्रेमिंग महत्वपूर्ण है क्योंकि यह मॉडल को उस तेज़ी से बढ़ते वर्ग में रखती है, जो सिर्फ़ प्रॉम्प्ट्स के जवाब देने के बजाय interfaces और media types के बीच लंबे context और action-oriented workflows के साथ काम करने के लिए बनाए जाते हैं।
स्रोत में उद्धृत कई benchmarks पर यह मॉडल अपने पूर्ववर्ती से बेहतर प्रदर्शन करता है और Alibaba के Qwen3-Omni के क़रीब प्रतिस्पर्धा करता है। एक खास तौर पर दिलचस्प आँकड़ा OSWorld पर है, जो GUI agents के लिए benchmark है; रिपोर्ट के अनुसार, accuracy पिछले संस्करण की 11.1 से बढ़कर 47.4 points हो गई। Nvidia यह भी कहती है कि उसी interactivity स्तर पर throughput Qwen3-Omni की तुलना में नौ गुना तक अधिक है।
बड़ी कहानी training recipe की है
इस रिलीज़ का सबसे खुलासा करने वाला पहलू शायद प्रशिक्षण पाइपलाइन है। स्रोत पाठ के अनुसार, Nvidia ने सात training stages में लगभग 717 billion tokens प्रोसेस किए, और हर चरण के साथ context window बढ़ता गया। synthetic data का एक बड़ा हिस्सा अन्य प्रमुख मॉडलों से आया।
लेख में कहा गया है कि image captions, प्रश्न-उत्तर युग्म, और reasoning traces ऐसे मॉडलों से तैयार किए गए, जिनमें Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen2.5-VL-72B-Instruct, OpenAI का gpt-oss-120b, Kimi-K2.5, GLM-4.1V-9B-Thinking, और DeepSeek-OCR शामिल हैं। फिल्टरिंग के लिए GPT-4o और Gemini 3 Flash Preview का उपयोग किया गया।
यह महत्वपूर्ण है क्योंकि यह उस वास्तविकता को स्पष्ट रूप से सामने लाता है, जिसकी चर्चा तो बहुत होती है लेकिन दस्तावेज़ीकरण कम मिलता है: frontier-capable multimodal systems increasingly rival systems के outputs की मदद से प्रशिक्षित किए जा रहे हैं। synthetic data अब कोई मामूली पूरक नहीं है। यह प्रतिस्पर्धी model development का केंद्रीय घटक बन चुका है।
यह AI उद्योग के लिए क्यों मायने रखता है
इसके निहितार्थ Nvidia से आगे जाते हैं। यदि frontier-capable multimodal systems को अन्य frontier models के layered interactions के माध्यम से प्रशिक्षित किया जा रहा है, तो AI की प्रगति अधिक recursive बनती जा रही है। कंपनियाँ सिर्फ़ मौलिक architectures नहीं बना रहीं। वे मौजूदा systems के ecosystem से capabilities को curate, filter, और distill भी कर रही हैं।
इससे प्रतिस्पर्धी परिदृश्य कई तरह बदलता है:
- जब open releases weights के साथ-साथ data और pipeline decisions भी उजागर करें, तब उनका मूल्य बढ़ जाता है
- Model development increasingly अन्य शक्तिशाली systems तक synthesis और filtering के लिए पहुँच पर निर्भर होता है
- Performance gains architecture changes जितने ही data orchestration से भी आ सकते हैं
- Commercially usable open models agents और multimodal tooling में downstream product development को तेज़ कर सकते हैं
इस अर्थ में, Nemotron 3 Nano Omni एक उत्पाद भी है और एक disclosure event भी। यह दिखाता है कि क्षेत्र वास्तव में कैसे काम कर रहा है, जब कंपनियाँ benchmark charts से अधिक साझा करने के लिए तैयार होती हैं।
Agentic AI design choices को चला रहा है
मॉडल की architecture और benchmark emphasis भी agents पर मौजूदा बाज़ार प्राथमिकता को दर्शाते हैं। लंबा context window, multimodal inputs, और मज़बूत OSWorld gains, सब एक ऐसे सिस्टम की ओर इशारा करते हैं जो interfaces, documents, और media को अधिक सतत workflow में समझ सके।
यह महत्वपूर्ण है क्योंकि agentic AI पर chat-only मॉडल से अलग मांगें होती हैं। इसे visual और textual information के बीच बेहतर grounding, लंबे कार्यों में अधिक robustness, और interactive speeds पर अधिक दक्षता चाहिए। इसलिए Nvidia का समान interactivity levels पर बेहतर throughput का दावा सिर्फ़ लैब metric नहीं, बल्कि deployment constraint से सीधे जुड़ा है।
यह रिलीज़ यह भी संकेत देती है कि open models अब केवल संकीर्ण या हल्के multimodal भूमिकाओं तक सीमित नहीं हैं। weights, आंशिक training data, और pipeline visibility वाला commercially usable system उन कंपनियों के लिए गंभीर building block है जो पूरी तरह closed APIs पर निर्भर हुए बिना multimodal agents विकसित करना चाहती हैं।
मॉडल निर्माण के अगले चरण की अधिक स्पष्ट झलक
Nemotron 3 Nano Omni इसलिए महत्वपूर्ण है क्योंकि यह उद्योग के कई बदलावों को एक रिलीज़ में समेट देता है: open multimodality, agent-focused design, heavy synthetic data usage, और training stack के बारे में अधिक पारदर्शिता। benchmark results ध्यान खींचेंगे, लेकिन गहरी बात यह है कि leading AI systems अब अन्य leading systems के व्यापक interaction के जरिए बनाए जा रहे हैं, यह स्वीकार किया जा रहा है।
यह Nvidia के काम को कम नहीं करता। बल्कि, यह बताता है कि कठिन समस्याएँ अब कहाँ हैं। सक्षम multimodal model बनाना अब architecture, compute, evaluation, filtering, और synthetic data strategy, सब एक साथ मांगता है। मॉडल एक ecosystem का परिणाम है, केवल एक training run का नहीं।
डेवलपर्स और शोधकर्ताओं के लिए, यह रिलीज़ एक उपयोगी टूल के साथ-साथ industry practice की अधिक ईमानदार झलक भी देती है। व्यापक AI क्षेत्र के लिए, यह एक सरल बात दोहराती है: open multimodal AI का भविष्य parameter counts जितना ही pipeline design और data provenance से भी आकार लेगा।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com


