Nvidia Nemotron 3 Nano Omni নতুন মাল্টিমোডাল AI playbook প্রকাশ করে

Nvidia-র Nemotron 3 Nano Omni দেখায়, ওপেন মাল্টিমোডাল মডেল এখন কীভাবে তৈরি হয়

Nvidia টেক্সট, ছবি, ভিডিও এবং অডিও প্রক্রিয়াকরণের জন্য একটি ওপেন মাল্টিমোডাল মডেল প্রকাশ করেছে, পাশাপাশি এমন বিবরণও দিয়েছে যা দেখায় যে প্রতিদ্বন্দ্বী মডেল থেকে আসা বিপুল synthetic data এখন frontier AI প্রশিক্ষণকে কীভাবে আকার দিচ্ছে

DT Editorial AI

Apr 30, 2026·3 min read·798 words

অস্বাভাবিকভাবে প্রকাশক একটি ওপেন রিলিজ

Nvidia-র নতুন Nemotron 3 Nano Omni শুধু এই কারণে উল্লেখযোগ্য নয় যে এটি একটি মাল্টিমোডাল মডেল, বরং কারণ কোম্পানি এমন অস্বাভাবিকভাবে স্পষ্ট ধারণা দিয়েছে যে এই ধরনের একটি সিস্টেম কীভাবে তৈরি হয়। সরবরাহকৃত উৎসপাঠ অনুযায়ী, মডেলটি text, images, video, এবং audio পরিচালনা করে, agentic applications-এর জন্য তৈরি, এবং commercial use-এর জন্য অনুমোদিত। Nvidia model weights-এর সঙ্গে training data এবং pipelines-এর কিছু অংশও প্রকাশ করছে।

এই সংমিশ্রণটি launch-টিকে আরেকটি সাধারণ model release-এর চেয়ে বড় করে তোলে। এটি আধুনিক মাল্টিমোডাল AI systems-এর পিছনের increasingly hybrid and synthetic data flows-এর এক ঝলক দেখায়, যেখানে প্রশিক্ষণ প্রায়ই একক বিশুদ্ধ corpus-এর ওপর নয়, বরং বহু অন্য মডেলের layered outputs-এর ওপর নির্ভর করে।

মডেলটি কী করার জন্য তৈরি

Nemotron 3 Nano Omni-কে 30-billion-parameter open-source multimodal model বলা হয়েছে, যেখানে Mamba-Transformer hybrid এবং mixture-of-experts routing রয়েছে। প্রতি query-তে প্রায় তিন বিলিয়ন parameter সক্রিয় হয়। মডেলটি Nvidia-র C-RADIOv4-H vision encoder এবং Parakeet-TDT audio encoder ব্যবহার করে, এবং এর context window 256,000 tokens পর্যন্ত যায়। আনুষ্ঠানিকভাবে সমর্থিত ভাষা শুধু ইংরেজি।

Nvidia বলছে, সিস্টেমটি মূলত agentic use cases-এর জন্য লক্ষ্যভিত্তিক। source report-এ document processing, computer-use agents, video and audio analysis, এবং voice interaction-কে এর intended applications হিসেবে উল্লেখ করা হয়েছে। এই framing গুরুত্বপূর্ণ, কারণ এটি মডেলটিকে সেই দ্রুত-বর্ধমান শ্রেণিতে রাখে, যা শুধু prompts-এর উত্তর দেওয়ার জন্য নয়, বরং interfaces এবং media types জুড়ে দীর্ঘ context এবং action-oriented workflows-এ কাজ করার জন্য তৈরি।

source-এ উদ্ধৃত কয়েকটি benchmark-এ মডেলটি তার পূর্বসূরিকে ছাড়িয়ে গেছে এবং Alibaba-র Qwen3-Omni-র সঙ্গে কাছাকাছি প্রতিদ্বন্দ্বিতা করেছে। বিশেষভাবে নজরকাড়া একটি সংখ্যা OSWorld-এ, যা GUI agents-এর benchmark; report অনুযায়ী accuracy আগের সংস্করণের 11.1 থেকে বেড়ে 47.4 points হয়েছে। Nvidia আরও বলছে, একই interactivity level-এ throughput Qwen3-Omni-র তুলনায় নয় গুণ পর্যন্ত বেশি।

AI & Robotics

ওপেনএআই গবেষক Sebastian Bubeck এবং Ernest Ryu যুক্তি দিচ্ছেন যে গণিত এখন AI-এর জন্য একটি গুরুত্বপূর্ণ মানদণ্ড, কারণ এতে দীর্ঘ, সঠিক যুক্তির শৃঙ্খল, ভুল সংশোধন এবং যাচাইযোগ্য ফলাফল দরকার হয়।

DT Editorial AI·Apr 29, 2026·via the-decoder.com

AI & Robotics

ইউরোপ, মধ্যপ্রাচ্য ও আফ্রিকায় থেমে থাকা AI rollout আবার শুরু করতে CIO-দের আক্রমণাত্মক systems audit করতে হবে বলে IDC বলছে, যা দেখায় deployment friction অনেক সময় ধারণাগত নয়, বরং অবকাঠামোগত।

DT Editorial AI·Apr 29, 2026·via artificialintelligence-news.com

মডেল নির্মাণের পরবর্তী ধাপের আরও স্পষ্ট চিত্র

Nemotron 3 Nano Omni গুরুত্বপূর্ণ, কারণ এটি শিল্পের কয়েকটি পরিবর্তনকে এক release-এ গেঁথে দেয়: open multimodality, agent-focused design, heavy synthetic data usage, এবং training stack সম্পর্কে আরও স্বচ্ছতা। benchmark results নজর কাড়বে, কিন্তু গভীর তাৎপর্য হলো leading AI systems এখন অন্য leading systems-এর সঙ্গে বিস্তৃত interaction-এর মাধ্যমে গড়ে উঠছে, এটি স্বীকার করা।

এটি Nvidia-র কাজকে খাটো করে না। বরং, এটি দেখায় আসল কঠিন সমস্যা এখন কোথায়। সক্ষম multimodal model তৈরি করা এখন architecture, compute, evaluation, filtering, এবং synthetic data strategy সবই একসঙ্গে দাবি করে। model হলো একটি ecosystem-এর ফল, কেবল একটি training run-এর নয়।

ডেভেলপার এবং গবেষকদের জন্য, এই release একটি ব্যবহারযোগ্য টুলের পাশাপাশি industry practice-এর আরও সৎ স্ন্যাপশটও দেয়। বিস্তৃত AI sector-এর জন্য এটি একটি সহজ কথা আবার মনে করিয়ে দেয়: open multimodal AI-র ভবিষ্যৎ parameter counts-এর মতোই pipeline design এবং data provenance দিয়েও নির্ধারিত হবে।

এই নিবন্ধটি The Decoder-এর রিপোর্টিং-এর ভিত্তিতে। মূল নিবন্ধ পড়ুন.

Nvidia-র Nemotron 3 Nano Omni দেখায়, ওপেন মাল্টিমোডাল মডেল এখন কীভাবে তৈরি হয়

অস্বাভাবিকভাবে প্রকাশক একটি ওপেন রিলিজ

মডেলটি কী করার জন্য তৈরি

Related Articles

Keep Reading

Google Gemini-এর memory ফিচার ইউরোপে আনছে এবং AI switching আরও সহজ করছে

বড় গল্পটি training recipe-তেই

এটা AI শিল্পের জন্য কেন গুরুত্বপূর্ণ

AWS-এ OpenAI-এর আগমন ক্লাউড AI শক্তির ভারসাম্যে বড় পরিবর্তনের ইঙ্গিত দেয়

Agentic AI design choices-কে চালাচ্ছে

মডেল নির্মাণের পরবর্তী ধাপের আরও স্পষ্ট চিত্র

NewsGuard-এর অডিটে Mistral-এর Le Chat ইরান-যুদ্ধের ভুল তথ্য প্রম্পটে দুর্বল বলে ধরা পড়েছে

Comments (0)

ওপেনএআই গবেষকদের কাছে গণিত কেন সাধারণ বুদ্ধিমত্তার একটি মূল পরীক্ষা

EMEA-তে এন্টারপ্রাইজ AI-র সামনে সিস্টেম সমস্যাই বাধা হয়ে দাঁড়াচ্ছে