返回精选
AI 精选动态 智能评分 74

NVIDIA 发布 Nemotron-Labs-Diffusion

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-05-20
收录于: 2026-05-20
AI 推荐理由
这条信息的增量主要在三模式解码架构和真实设备吞吐数据,尤其是与 Qwen3-8B-Eagle3、Qwen3-8B 的多组对比,适合关注推理效率和解码范式演进的人直接看原文。
核心解读
NVIDIA 发布了 Nemotron-Labs-Diffusion,一个支持自回归(AR)、扩散和 self-speculation 三种解码模式的三模式语言模型系列,包含 3B、8B、14B 版本,以及 base、instruct 和 vision-language 变体。其 self-speculation 采用扩散生成草稿、AR 验证,并共享 KV cache;在 SGLang 中,相比 Qwen3-8B-Eagle3,接受长度提升 3 倍、速度提升 2.2 倍,相比 Qwen3-8B(无 MTP)在相同准确率下每轮前向传播生成 token 数量提升 5.9 倍。真实设备上,8B 版本在 DGX Spark(并发数 1)达到 112 tok/sec,较 AR 模式的 41.8 tok/sec 快 2.7 倍;在 GB200(并发数 1)达到 850 tok/sec,较 AR 模式 253 tok/sec 快 3.3 倍,较 Eagle3 的 360 tok/sec 快 2.4 倍,定制 CUDA 内核后可进一步提升到 1015 tok/sec,约 4 倍加速。
#模型发布#技术突破#大模型