AI 精选动态
智能评分 62
Nemotron 3 Ultra 技术报告
AI 推荐理由
可重点查看其 65 页报告末尾的评测表,以及 open-weight、NVFP4 预训练和 Mamba2-Transformer/LatentMoE 组合在长上下文推理效率上的实现细节。核心解读
Niels Rogge 转发 Pavlo Molchanov 的帖子,介绍了 Nemotron 3 Ultra(550B-A55B)的 65 页技术报告。该模型被称为其“最强的 open-weight 模型”和完整训练配方,强调面向长上下文 agentic 工作负载的推理效率,并开放了 base、post-trained、reward checkpoints、NVFP4 量化版本、训练数据和 recipes。技术细节包括:总参数 550B、激活参数 55B、Hybrid Mamba2-Transformer(约 4:1 的 Mamba:Attention)、在 NVFP4 上用 20T tokens 预训练、LatentMoE 架构、两阶段 MOPD 后训练以及 Native MTP;原文还提到可在报告底部查看 evals,与其他模型进行比较。