AI 精选动态
智能评分 70
Atomic Chat MTP 加速
AI 推荐理由
该结果同时给出了 dense 与 MoE 的对照、速度提升幅度、约 80% 接受率和约 1GB 显存代价,适合判断 MTP 在本地推理场景中的实际收益边界。核心解读
Atomic Chat 的本地离线开源应用展示了 Multi-Token Prediction(MTP)对本地 LLM 推理的加速效果。在 2x RTX 5090 上,dense Qwen3.6 27B 的速度从 51 tokens/s 提升到 117 tokens/s,Qwen3.6 35B-A3B MoE 模型从 218 tokens/s 提升到 267 tokens/s。原帖称测试中约 80% 的 draft token 被接受,准确率无损,额外显存开销约 1GB;其 GitHub 仓库已开源。