AI 精选动态智能评分 74

NVIDIA 发布 Nemotron-Labs-Diffusion

来源: twitter关注列表

作者: ModelScope (@ModelScope2022)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

这条信息的增量主要在三模式解码架构和真实设备吞吐数据，尤其是与 Qwen3-8B-Eagle3、Qwen3-8B 的多组对比，适合关注推理效率和解码范式演进的人直接看原文。

核心解读

NVIDIA 发布了 Nemotron-Labs-Diffusion，一个支持自回归（AR）、扩散和 self-speculation 三种解码模式的三模式语言模型系列，包含 3B、8B、14B 版本，以及 base、instruct 和 vision-language 变体。其 self-speculation 采用扩散生成草稿、AR 验证，并共享 KV cache；在 SGLang 中，相比 Qwen3-8B-Eagle3，接受长度提升 3 倍、速度提升 2.2 倍，相比 Qwen3-8B（无 MTP）在相同准确率下每轮前向传播生成 token 数量提升 5.9 倍。真实设备上，8B 版本在 DGX Spark（并发数 1）达到 112 tok/sec，较 AR 模式的 41.8 tok/sec 快 2.7 倍；在 GB200（并发数 1）达到 850 tok/sec，较 AR 模式 253 tok/sec 快 3.3 倍，较 Eagle3 的 360 tok/sec 快 2.4 倍，定制 CUDA 内核后可进一步提升到 1015 tok/sec，约 4 倍加速。

#模型发布#技术突破#大模型

阅读原始全文