असामान्यपणे उघड करणाऱ्या तपशीलांसह ओपन रिलीज
Nvidia चे नवे Nemotron 3 Nano Omni हे फक्त मल्टीमोडल मॉडेल आहे म्हणूनच महत्त्वाचे नाही, तर कंपनीने असा सिस्टीम कसा तयार केला जातो याबद्दल असामान्यपणे स्पष्ट माहिती दिली आहे म्हणूनही ते महत्त्वाचे आहे. दिलेल्या स्रोत मजकुरानुसार, हे मॉडेल text, images, video, आणि audio हाताळते, agentic applications साठी डिझाइन केलेले आहे, आणि commercial use साठी मंजूर आहे. Nvidia model weights बरोबरच training data आणि pipelines चे काही भागही प्रसिद्ध करत आहे.
ही जोडणी हा launch सामान्य model release च्या पलीकडे घेऊन जाते. आधुनिक मल्टीमोडल AI systems च्या मागे असलेल्या increasingly hybrid and synthetic data flows ची ती झलक देते; जिथे प्रशिक्षण अनेकदा एका स्वच्छ corpus वर नव्हे, तर इतर अनेक मॉडेल्सच्या layered outputs वर अवलंबून असते.
मॉडेल कशासाठी बांधले आहे
Nemotron 3 Nano Omni ला 30-billion-parameter open-source multimodal model असे वर्णन केले आहे, ज्यात Mamba-Transformer hybrid आणि mixture-of-experts routing आहे. प्रत्येक query साठी सुमारे तीन अब्ज parameters सक्रिय होतात. हे मॉडेल Nvidia च्या C-RADIOv4-H vision encoder आणि Parakeet-TDT audio encoder वर चालते, आणि त्याचे context window 256,000 tokens पर्यंत जाते. अधिकृतपणे समर्थित भाषा फक्त इंग्रजी आहे.
Nvidia नुसार, ही प्रणाली प्रामुख्याने agentic use cases साठी लक्ष्यित आहे. source report मध्ये document processing, computer-use agents, video and audio analysis, आणि voice interaction हे त्याचे intended applications म्हणून नमूद केले आहे. हे framing महत्त्वाचे आहे, कारण ते मॉडेलला prompts चे उत्तर देण्यापलीकडे, interfaces आणि media types across दीर्घ context आणि action-oriented workflows मध्ये काम करण्यासाठी तयार होणाऱ्या जलद वाढणाऱ्या वर्गात ठेवते.
source मध्ये नमूद केलेल्या अनेक benchmarks वर, हे मॉडेल त्याच्या पूर्वसुरीपेक्षा चांगले ठरते आणि Alibaba च्या Qwen3-Omni शी जवळची स्पर्धा करते. विशेष लक्ष वेधून घेणारी संख्या OSWorld वरची आहे, जी GUI agents साठी benchmark आहे; report नुसार accuracy मागील आवृत्तीच्या 11.1 वरून 47.4 points वर गेली. Nvidia असेही म्हणते की त्याच interactivity स्तरावर throughput Qwen3-Omni पेक्षा नऊ पट जास्त आहे.





