అసాధారణంగా బయటపెట్టే వివరాలతో ఒక ఓపెన్ రిలీజ్
Nvidia యొక్క కొత్త Nemotron 3 Nano Omni కేవలం మల్టీమోడల్ మోడల్ కావడం వల్లే కాదు, అలాంటి వ్యవస్థను ఎలా నిర్మిస్తారో కంపెనీ అసాధారణంగా స్పష్టంగా వెల్లడించడంవల్ల కూడా విశేషంగా నిలుస్తోంది. అందించిన మూల పాఠ్యం ప్రకారం, ఈ మోడల్ text, images, video, మరియు audioని నిర్వహిస్తుంది, agentic applications కోసం రూపొందించబడింది, మరియు commercial useకి అనుమతించబడింది. Nvidia model weightsతో పాటు training data, pipelinesలోని కొంత భాగాన్ని కూడా విడుదల చేస్తోంది.
ఈ కలయిక ఈ launchను సాధారణ model releaseకి మించి తీసుకెళ్తుంది. ఆధునిక మల్టీమోడల్ AI systems వెనుక ఉన్న increasingly hybrid and synthetic data flowsను ఇది చూపిస్తుంది; ఇక్కడ training తరచూ ఒక స్వచ్ఛమైన corpusపై కాకుండా, అనేక ఇతర మోడళ్ల layered outputsపై ఆధారపడుతుంది.
మోడల్ ఏ కోసం రూపొందించబడింది
Nemotron 3 Nano Omni ని 30-billion-parameter open-source multimodal modelగా వివరించారు; ఇందులో Mamba-Transformer hybrid మరియు mixture-of-experts routing ఉంది. ప్రతి queryకి సుమారు మూడు బిలియన్ parameters active అవుతాయి. ఈ మోడల్ Nvidia యొక్క C-RADIOv4-H vision encoder మరియు Parakeet-TDT audio encoderపై నడుస్తుంది, అలాగే context window 256,000 tokens వరకు ఉంటుంది. అధికారికంగా మద్దతు ఉన్న భాష ఇంగ్లీష్ మాత్రమే.
Nvidia ప్రకారం, ఈ వ్యవస్థ ప్రధానంగా agentic use casesను లక్ష్యంగా చేసుకుంది. source report దీన్ని document processing, computer-use agents, video and audio analysis, మరియు voice interaction వంటి ఉపయోగాల కోసం ఉద్దేశించిందని చెబుతోంది. ఇది ముఖ్యమైన framing, ఎందుకంటే promptsకు మాత్రమే స్పందించకుండా, interfaces మరియు media types across దీర్ఘ context మరియు action-oriented workflowsతో పనిచేయడానికి రూపొందించబడే వ్యవస్థల వేగంగా పెరుగుతున్న వర్గంలో ఈ మోడల్ను ఉంచుతుంది.
sourceలో పేర్కొన్న అనేక benchmarksలో, ఈ మోడల్ దాని ముందున్న మోడల్ను మించి, Alibaba యొక్క Qwen3-Omniకి దగ్గరగా పోటీపడుతుంది. ముఖ్యంగా గమనించదగిన సంఖ్య OSWorld benchmarkలో ఉంది, ఇది GUI agents కోసం; report ప్రకారం accuracy మునుపటి వెర్షన్లోని 11.1 నుండి 47.4 pointsకి పెరిగింది. అదే interactivity స్థాయిలో throughput Qwen3-Omni కంటే తొమ్మిది రెట్లు ఎక్కువగా ఉందని Nvidia కూడా చెబుతోంది.





