AI 精选动态智能评分 89

NVIDIA shipped Nemotron 3 Ultra

来源: twitter关注列表

作者: Chubby♨️ (@kimmonismus)

发布于: 2026-06-04

收录于: 2026-06-04

AI 推荐理由

这条同时给出了开放模型规模、训练精度、长任务吞吐和后训练蒸馏方法，且宣称可完整复现，适合重点看其架构设计与训练配方细节。

核心解读

NVIDIA 今天发布 Nemotron 3 Ultra，这是一个完全开放的 550B MoE 模型，具备 55B active params，并同步开放了权重、训练数据和完整训练配方。该模型采用 hybrid Mamba-Attention MoE 架构，面向长上下文和长输出 agent 任务，NVIDIA 称其在相近精度下，相比同类开放模型在长输出 agent 工作负载上的吞吐量约提升 6 倍，推文中还称其推理速度提升 5x、复杂 agent 任务成本最高降低 30%。模型以 4-bit（NVFP4）在 20T tokens 上进行预训练，并在后训练阶段使用 MOPD，让 10+ 个 specialist teacher models 通过自身 rollouts 向学生模型蒸馏能力。

#模型发布#开源#技术突破

阅读原始全文