অস্বাভাবিকভাবে প্রকাশক একটি ওপেন রিলিজ
Nvidia-র নতুন Nemotron 3 Nano Omni শুধু এই কারণে উল্লেখযোগ্য নয় যে এটি একটি মাল্টিমোডাল মডেল, বরং কারণ কোম্পানি এমন অস্বাভাবিকভাবে স্পষ্ট ধারণা দিয়েছে যে এই ধরনের একটি সিস্টেম কীভাবে তৈরি হয়। সরবরাহকৃত উৎসপাঠ অনুযায়ী, মডেলটি text, images, video, এবং audio পরিচালনা করে, agentic applications-এর জন্য তৈরি, এবং commercial use-এর জন্য অনুমোদিত। Nvidia model weights-এর সঙ্গে training data এবং pipelines-এর কিছু অংশও প্রকাশ করছে।
এই সংমিশ্রণটি launch-টিকে আরেকটি সাধারণ model release-এর চেয়ে বড় করে তোলে। এটি আধুনিক মাল্টিমোডাল AI systems-এর পিছনের increasingly hybrid and synthetic data flows-এর এক ঝলক দেখায়, যেখানে প্রশিক্ষণ প্রায়ই একক বিশুদ্ধ corpus-এর ওপর নয়, বরং বহু অন্য মডেলের layered outputs-এর ওপর নির্ভর করে।
মডেলটি কী করার জন্য তৈরি
Nemotron 3 Nano Omni-কে 30-billion-parameter open-source multimodal model বলা হয়েছে, যেখানে Mamba-Transformer hybrid এবং mixture-of-experts routing রয়েছে। প্রতি query-তে প্রায় তিন বিলিয়ন parameter সক্রিয় হয়। মডেলটি Nvidia-র C-RADIOv4-H vision encoder এবং Parakeet-TDT audio encoder ব্যবহার করে, এবং এর context window 256,000 tokens পর্যন্ত যায়। আনুষ্ঠানিকভাবে সমর্থিত ভাষা শুধু ইংরেজি।
Nvidia বলছে, সিস্টেমটি মূলত agentic use cases-এর জন্য লক্ষ্যভিত্তিক। source report-এ document processing, computer-use agents, video and audio analysis, এবং voice interaction-কে এর intended applications হিসেবে উল্লেখ করা হয়েছে। এই framing গুরুত্বপূর্ণ, কারণ এটি মডেলটিকে সেই দ্রুত-বর্ধমান শ্রেণিতে রাখে, যা শুধু prompts-এর উত্তর দেওয়ার জন্য নয়, বরং interfaces এবং media types জুড়ে দীর্ঘ context এবং action-oriented workflows-এ কাজ করার জন্য তৈরি।
source-এ উদ্ধৃত কয়েকটি benchmark-এ মডেলটি তার পূর্বসূরিকে ছাড়িয়ে গেছে এবং Alibaba-র Qwen3-Omni-র সঙ্গে কাছাকাছি প্রতিদ্বন্দ্বিতা করেছে। বিশেষভাবে নজরকাড়া একটি সংখ্যা OSWorld-এ, যা GUI agents-এর benchmark; report অনুযায়ী accuracy আগের সংস্করণের 11.1 থেকে বেড়ে 47.4 points হয়েছে। Nvidia আরও বলছে, একই interactivity level-এ throughput Qwen3-Omni-র তুলনায় নয় গুণ পর্যন্ত বেশি।





