அதிகமாக வெளிப்படுத்தும் விவரங்களுடன் ஒரு திறந்த வெளியீடு

Nvidia-வின் புதிய Nemotron 3 Nano Omni ஒரு மல்டிமோடல் மாதிரி என்பதால் மட்டுமல்ல, இப்படியான ஒரு அமைப்பு எவ்வாறு உருவாக்கப்படுகிறது என்பதை நிறுவனம் மிகத் துல்லியமாக வெளிப்படுத்தியுள்ளதாலும் குறிப்பிடத்தக்கது. வழங்கப்பட்ட மூல உரையின் படி, இந்த மாதிரி text, images, video, மற்றும் audio-ஐ கையாளுகிறது, agentic பயன்பாடுகளுக்காக வடிவமைக்கப்பட்டுள்ளது, மேலும் வணிக பயன்பாட்டிற்கும் அனுமதிக்கப்பட்டுள்ளது. Nvidia model weights-உடன் training data மற்றும் pipelines-இன் சில பகுதிகளையும் வெளியிடுகிறது.

இந்த சேர்க்கை இந்த வெளியீட்டை ஒரு சாதாரண model release-ஐவிட மேலே கொண்டு செல்கிறது. நவீன மல்டிமோடல் AI அமைப்புகளுக்குப் பின்னால் உள்ள increasingly hybrid and synthetic data flows-ஐ இது காட்டுகிறது; இங்கு training பெரும்பாலும் ஒரு தூய corpus-ஆல் அல்ல, பல பிற மாதிரிகளின் அடுக்கடுக்கான outputs-ஆல் சார்ந்திருக்கும்.

மாதிரி எதற்காக உருவாக்கப்பட்டுள்ளது

Nemotron 3 Nano Omni என்பது 30-billion-parameter open-source multimodal model என விவரிக்கப்படுகிறது; இதில் Mamba-Transformer hybrid மற்றும் mixture-of-experts routing உள்ளது. ஒவ்வொரு query-க்கும் சுமார் மூன்று பில்லியன் parameters செயல்படுத்தப்படுகின்றன. இந்த மாதிரி Nvidia-வின் C-RADIOv4-H vision encoder மற்றும் Parakeet-TDT audio encoder-ஐ பயன்படுத்துகிறது; மேலும் அதன் context window 256,000 tokens வரை உள்ளது. அதிகாரப்பூர்வமாக ஆதரிக்கப்படும் மொழி ஆங்கிலம் மட்டுமே.

Nvidia-வின் படி, இந்த அமைப்பு முக்கியமாக agentic use cases-க்கு இலக்காக உள்ளது. source report document processing, computer-use agents, video and audio analysis, மற்றும் voice interaction-ஐ அதன் நோக்கப்பட்ட பயன்பாடுகளாக குறிப்பிடுகிறது. இந்த framing முக்கியமானது, ஏனெனில் prompt-களுக்கு பதிலளிப்பதைத் தாண்டி, interfaces மற்றும் media types across நீண்ட context மற்றும் action-oriented workflows-களில் இயங்குவதற்காக வடிவமைக்கப்படும் systems என்ற வேகமாக வளர்ந்து வரும் வகையில் இந்த மாதிரியை இது வைக்கிறது.

சுருக்கப்பட்ட மூலத்தில் குறிப்பிடப்பட்ட பல benchmarks-ல், இந்த மாதிரி அதன் முந்தைய பதிப்பை மிஞ்சி, Alibaba-வின் Qwen3-Omni-க்கு அருகில் போட்டியிடுகிறது. குறிப்பாக கவனம் ஈர்க்கும் எண்ணிக்கை OSWorld-ல், GUI agents-க்கான benchmark-இல், previous version-இன் 11.1-இலிருந்து 47.4 points-ஆக accuracy உயர்ந்ததாக report கூறுகிறது. அதே interactivity level-இல் throughput Qwen3-Omni-யை விட ஒன்பது மடங்கு அதிகம் என Nvidia கூறுகிறது.