AI 精选动态
智能评分 89
NVIDIA shipped Nemotron 3 Ultra
AI 推荐理由
这条同时给出了开放模型规模、训练精度、长任务吞吐和后训练蒸馏方法,且宣称可完整复现,适合重点看其架构设计与训练配方细节。核心解读
NVIDIA 今天发布 Nemotron 3 Ultra,这是一个完全开放的 550B MoE 模型,具备 55B active params,并同步开放了权重、训练数据和完整训练配方。该模型采用 hybrid Mamba-Attention MoE 架构,面向长上下文和长输出 agent 任务,NVIDIA 称其在相近精度下,相比同类开放模型在长输出 agent 工作负载上的吞吐量约提升 6 倍,推文中还称其推理速度提升 5x、复杂 agent 任务成本最高降低 30%。模型以 4-bit(NVFP4)在 20T tokens 上进行预训练,并在后训练阶段使用 MOPD,让 10+ 个 specialist teacher models 通过自身 rollouts 向学生模型蒸馏能力。