Nvidia Nemotron 3 Nano Omni 揭示了新的多模态 AI 路线图

一次带有罕见透明细节的开放发布

Nvidia 新发布的 Nemotron 3 Nano Omni 值得关注，不仅因为它是一款多模态模型，还因为该公司披露了关于此类系统如何组装而成的异常具体视角。根据所提供的原文，这款模型可处理文本、图像、视频和音频，面向 agentic 应用设计，并已获准用于商业用途。Nvidia 还同时发布了模型权重，以及部分训练数据和训练流水线。

这种组合让这次发布不仅仅又是一款模型上线。它让人得以一窥现代多模态 AI 系统背后日益混合化、合成化的数据流，在这些系统的训练中，依赖的往往不是单一、纯净的语料库，而是多种其他模型输出层层叠加后的结果。

这款模型的用途

Nemotron 3 Nano Omni 被描述为一款 300 亿参数的开源多模态模型，采用 Mamba-Transformer 混合架构和 mixture-of-experts 路由机制。每次查询大约激活 30 亿参数。该模型运行于 Nvidia 的 C-RADIOv4-H 视觉编码器和 Parakeet-TDT 音频编码器之上，支持最长 256,000 个 token 的上下文窗口。英语是唯一官方支持的语言。

Nvidia 表示，该系统主要面向 agentic 使用场景。所提供的报道列出的预期应用包括文档处理、计算机使用型代理、视频和音频分析，以及语音交互。这样的定位很重要，因为它把这款模型放进了快速扩张的系统类别中，这类系统不仅要回答提示词，还要跨界面和媒体类型运作，并支持更长上下文和面向行动的工作流。

在原文引用的多个基准测试中，该模型表现优于前代版本，并与阿里巴巴的 Qwen3-Omni 竞争接近。一个尤其引人注目的数据来自 OSWorld，这是一项面向 GUI 代理的基准测试，报道称与上一版本相比，准确率从 11.1 提升到 47.4。Nvidia 还表示，在相同交互水平下，其吞吐量最高可比 Qwen3-Omni 提升 9 倍。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 开源一套 2,000 小时机器人数据集

X Square Robot 发布了 XRZero-G0 和一套 2,000 小时的多模态数据集，旨在减少具身 AI 系统对真实机器人训练数据的需求。

Read article

更大的故事在于训练配方

这次发布中最具揭示性的细节，可能是训练流水线。根据原文，Nvidia 在七个训练阶段中处理了大约 7170 亿个 token，并在每一步扩大上下文窗口。其中相当大一部分合成数据来自其他主流模型。

文章称，图像描述、问答对和推理轨迹由多个模型生成，包括 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAI 的 gpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking 和 DeepSeek-OCR。GPT-4o 和 Gemini 3 Flash Preview 则用于过滤。

这很重要，因为它明确呈现了一个经常被讨论、却只被部分记录的现实：最先进的模型越来越多地借助竞争对手系统的输出进行训练。合成数据不再只是边缘补充，而是竞争性模型开发中的核心要素。

这对 AI 行业意味着什么

其影响不止于 Nvidia。如果前沿级多模态系统正在通过与其他前沿模型的层层互动来训练，那么 AI 的进步就会变得更加递归。公司不仅在构建原创架构，也在整个既有系统生态中进行能力的整理、过滤和蒸馏。

这会在多个方面改变竞争格局：

当开放发布不仅公开权重，还公开数据和流水线决策时，其价值会更高
模型开发越来越依赖对其他强大系统的访问，以便进行合成与过滤
性能提升可能同样来自数据编排，而不仅仅是原始架构变化
可商业使用的开放模型可以加速代理和多模态工具领域的下游产品开发

从这个意义上说，Nemotron 3 Nano Omni 既是一款产品，也是一次披露事件。它展示了当公司愿意公布的不只是基准图表时，这个领域在实际如何运作。

Anthropic呼吁强制审计，同时把AI重新定义为战略基础设施

Anthropic首席执行官Dario Amodei表示，透明度规则已不再足够，并呼吁对前沿AI系统进行强制性的第三方审计。

Read article

Agentic AI 正在推动设计选择

这款模型的架构和基准重点也反映出当前市场对代理的优先级。长上下文窗口、多模态输入，以及在 OSWorld 上的显著提升，都指向一个旨在以更连续的工作流理解界面、文档和媒体的系统。

这一点很重要，因为 agentic AI 对模型提出的要求不同于只用于聊天的模型。它需要在视觉信息和文本信息之间更好的锚定能力，在更长任务中更高的鲁棒性，以及在交互速度下更高的效率。因此，Nvidia 声称其在可比交互水平下提升了吞吐量，这直接关系到部署约束，而不仅仅是实验室指标。

这次发布还表明，开放模型不再局限于狭窄或轻量级的多模态角色。一个可商业使用、拥有权重、部分训练数据和流水线可见性的系统，是希望开发多模态代理、又不完全依赖封闭 API 的公司所需要的重要构件。

对模型构建下一阶段的更清晰视角

Nemotron 3 Nano Omni 之所以重要，是因为它把多个行业变化打包进了一次发布：开放多模态、面向代理的设计、大量使用合成数据，以及对训练栈更高的透明度。基准结果会吸引关注，但更深层的意义在于，它承认了领先 AI 系统如今是通过与其他领先系统的广泛互动而组装出来的。

这并不会削弱 Nvidia 的工作。恰恰相反，它重新定义了难点所在。如今构建一款能力足够强的多模态模型，取决于架构、算力、评估、过滤以及合成数据策略的同时推进。模型是一个生态系统的产物，而不仅仅是一轮训练的结果。

对于开发者和研究人员来说，这次发布既提供了可用工具，也提供了对行业实践更坦诚的切面。对于更广泛的 AI 行业来说，它强化了一个简单的观点：开放多模态 AI 的未来，将同样由流水线设计和数据来源决定，而不只是由参数数量决定。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

Nvidia 的 Nemotron 3 Nano Omni 展示了开放多模态模型如今是如何构建的