অস্বাভাবিকভাবে প্রকাশক একটি ওপেন রিলিজ
Nvidia-র নতুন Nemotron 3 Nano Omni শুধু এই কারণে উল্লেখযোগ্য নয় যে এটি একটি মাল্টিমোডাল মডেল, বরং কারণ কোম্পানি এমন অস্বাভাবিকভাবে স্পষ্ট ধারণা দিয়েছে যে এই ধরনের একটি সিস্টেম কীভাবে তৈরি হয়। সরবরাহকৃত উৎসপাঠ অনুযায়ী, মডেলটি text, images, video, এবং audio পরিচালনা করে, agentic applications-এর জন্য তৈরি, এবং commercial use-এর জন্য অনুমোদিত। Nvidia model weights-এর সঙ্গে training data এবং pipelines-এর কিছু অংশও প্রকাশ করছে।
এই সংমিশ্রণটি launch-টিকে আরেকটি সাধারণ model release-এর চেয়ে বড় করে তোলে। এটি আধুনিক মাল্টিমোডাল AI systems-এর পিছনের increasingly hybrid and synthetic data flows-এর এক ঝলক দেখায়, যেখানে প্রশিক্ষণ প্রায়ই একক বিশুদ্ধ corpus-এর ওপর নয়, বরং বহু অন্য মডেলের layered outputs-এর ওপর নির্ভর করে।
মডেলটি কী করার জন্য তৈরি
Nemotron 3 Nano Omni-কে 30-billion-parameter open-source multimodal model বলা হয়েছে, যেখানে Mamba-Transformer hybrid এবং mixture-of-experts routing রয়েছে। প্রতি query-তে প্রায় তিন বিলিয়ন parameter সক্রিয় হয়। মডেলটি Nvidia-র C-RADIOv4-H vision encoder এবং Parakeet-TDT audio encoder ব্যবহার করে, এবং এর context window 256,000 tokens পর্যন্ত যায়। আনুষ্ঠানিকভাবে সমর্থিত ভাষা শুধু ইংরেজি।
Nvidia বলছে, সিস্টেমটি মূলত agentic use cases-এর জন্য লক্ষ্যভিত্তিক। source report-এ document processing, computer-use agents, video and audio analysis, এবং voice interaction-কে এর intended applications হিসেবে উল্লেখ করা হয়েছে। এই framing গুরুত্বপূর্ণ, কারণ এটি মডেলটিকে সেই দ্রুত-বর্ধমান শ্রেণিতে রাখে, যা শুধু prompts-এর উত্তর দেওয়ার জন্য নয়, বরং interfaces এবং media types জুড়ে দীর্ঘ context এবং action-oriented workflows-এ কাজ করার জন্য তৈরি।
source-এ উদ্ধৃত কয়েকটি benchmark-এ মডেলটি তার পূর্বসূরিকে ছাড়িয়ে গেছে এবং Alibaba-র Qwen3-Omni-র সঙ্গে কাছাকাছি প্রতিদ্বন্দ্বিতা করেছে। বিশেষভাবে নজরকাড়া একটি সংখ্যা OSWorld-এ, যা GUI agents-এর benchmark; report অনুযায়ী accuracy আগের সংস্করণের 11.1 থেকে বেড়ে 47.4 points হয়েছে। Nvidia আরও বলছে, একই interactivity level-এ throughput Qwen3-Omni-র তুলনায় নয় গুণ পর্যন্ত বেশি।
বড় গল্পটি training recipe-তেই
এই release-এর সবচেয়ে প্রকাশক দিক হতে পারে training pipeline। source text অনুযায়ী, Nvidia সাতটি training stages জুড়ে প্রায় 717 billion tokens প্রক্রিয়াকরণ করেছে, এবং প্রতিটি ধাপে context window বাড়ানো হয়েছে। synthetic data-র একটি বড় অংশ এসেছে অন্যান্য প্রধান মডেল থেকে।
article-এ বলা হয়েছে, image captions, question-answer pairs, এবং reasoning traces তৈরি করা হয়েছে Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen2.5-VL-72B-Instruct, OpenAI-র gpt-oss-120b, Kimi-K2.5, GLM-4.1V-9B-Thinking, এবং DeepSeek-OCR-এর মতো মডেল ব্যবহার করে। filtering-এর জন্য GPT-4o এবং Gemini 3 Flash Preview ব্যবহার করা হয়েছে।
এটি গুরুত্বপূর্ণ, কারণ এটি এমন এক বাস্তবতাকে স্পষ্ট করে, যা প্রায়ই আলোচনা হয় কিন্তু আংশিকই নথিভুক্ত থাকে: frontier-capable multimodal systems increasingly rival systems-এর outputs ব্যবহার করে প্রশিক্ষিত হচ্ছে। synthetic data এখন আর ছোটখাটো সহায়ক নয়। এটি প্রতিযোগিতামূলক model development-এর কেন্দ্রীয় উপাদান হয়ে উঠেছে।
এটা AI শিল্পের জন্য কেন গুরুত্বপূর্ণ
এর প্রভাব Nvidia-র বাইরেও যায়। যদি frontier-capable multimodal systems অন্যান্য frontier models-এর layered interactions-এর মাধ্যমে প্রশিক্ষিত হয়, তাহলে AI অগ্রগতি আরও recursive হয়ে উঠছে। কোম্পানিগুলো কেবল original architectures তৈরি করছে না। তারা বিদ্যমান systems ecosystem থেকে capabilities curate, filter, এবং distill-ও করছে।
এর ফলে প্রতিযোগিতামূলক পরিস্থিতি কয়েকভাবে বদলে যায়:
- weights-এর পাশাপাশি data এবং pipeline decisions-ও প্রকাশ করলে open releases আরও মূল্যবান হয়
- model development increasingly অন্য শক্তিশালী systems-এ synthesis এবং filtering-এর ওপর নির্ভর করে
- performance gains architecture পরিবর্তনের মতোই data orchestration থেকেও আসতে পারে
- commercially usable open models agents এবং multimodal tooling-এ downstream product development ত্বরান্বিত করতে পারে
এই অর্থে, Nemotron 3 Nano Omni একসঙ্গে একটি product এবং একটি disclosure event। কোম্পানিগুলো benchmark charts-এর চেয়ে বেশি কিছু প্রকাশ করতে রাজি হলে শিল্পটি কীভাবে কাজ করে, তা এটি দেখায়।
Agentic AI design choices-কে চালাচ্ছে
মডেলের architecture এবং benchmark emphasis-ও agents-এর প্রতি বর্তমান বাজার-প্রাধান্য প্রতিফলিত করে। দীর্ঘ context window, multimodal inputs, এবং শক্তিশালী OSWorld gains এক এমন সিস্টেমের দিকে ইঙ্গিত করে, যা interfaces, documents, এবং media-কে আরও অবিচ্ছিন্ন workflow-এ বুঝতে পারে।
এটি গুরুত্বপূর্ণ, কারণ agentic AI-এর প্রয়োজন chat-only model-এর চেয়ে আলাদা। এর জন্য visual এবং textual information-এর মধ্যে ভালো grounding, দীর্ঘ কাজজুড়ে বেশি robustness, এবং interactive speeds-এ বেশি efficiency দরকার। তাই comparable interactivity levels-এ Nvidia-র উন্নত throughput-এর দাবি একটি lab metric-এর চেয়ে বেশি, এটি deployment constraint-এর সঙ্গে সরাসরি সম্পর্কিত।
এই release এটাও দেখায় যে open models এখন আর কেবল সংকীর্ণ বা হালকা multimodal ভূমিকার মধ্যে সীমাবদ্ধ নয়। weights, আংশিক training data, এবং pipeline visibility-সহ commercially usable system হলো এমন কোম্পানিগুলোর জন্য একটি গুরুত্বপূর্ণ building block, যারা পুরোপুরি closed APIs-এর ওপর নির্ভর না করে multimodal agents তৈরি করতে চায়।
মডেল নির্মাণের পরবর্তী ধাপের আরও স্পষ্ট চিত্র
Nemotron 3 Nano Omni গুরুত্বপূর্ণ, কারণ এটি শিল্পের কয়েকটি পরিবর্তনকে এক release-এ গেঁথে দেয়: open multimodality, agent-focused design, heavy synthetic data usage, এবং training stack সম্পর্কে আরও স্বচ্ছতা। benchmark results নজর কাড়বে, কিন্তু গভীর তাৎপর্য হলো leading AI systems এখন অন্য leading systems-এর সঙ্গে বিস্তৃত interaction-এর মাধ্যমে গড়ে উঠছে, এটি স্বীকার করা।
এটি Nvidia-র কাজকে খাটো করে না। বরং, এটি দেখায় আসল কঠিন সমস্যা এখন কোথায়। সক্ষম multimodal model তৈরি করা এখন architecture, compute, evaluation, filtering, এবং synthetic data strategy সবই একসঙ্গে দাবি করে। model হলো একটি ecosystem-এর ফল, কেবল একটি training run-এর নয়।
ডেভেলপার এবং গবেষকদের জন্য, এই release একটি ব্যবহারযোগ্য টুলের পাশাপাশি industry practice-এর আরও সৎ স্ন্যাপশটও দেয়। বিস্তৃত AI sector-এর জন্য এটি একটি সহজ কথা আবার মনে করিয়ে দেয়: open multimodal AI-র ভবিষ্যৎ parameter counts-এর মতোই pipeline design এবং data provenance দিয়েও নির্ধারিত হবে।
এই নিবন্ধটি The Decoder-এর রিপোর্টিং-এর ভিত্তিতে। মূল নিবন্ধ পড়ুন.
Originally published on the-decoder.com



