- AI HOT 精选动态

AI 精选动态智能评分 78

来源: twitter关注列表

作者: AK (@_akhaliq)

发布于: 2026-05-18

收录于: 2026-05-19

AI 推荐理由

这是直接影响本地推理性能的工程进展，能帮助从业者评估 speculative decoding/MTP 在实际部署中的收益与适用场景。

核心解读

llama.cpp 新增了对 Qwen3.6 家族的 MTP（Multi Token Prediction）支持，作者给出的测试显示在 DGX Spark 上吞吐可从约 7 tok/s 提升到 13.9–21.6 tok/s，整体加速大约 2x 以上。这个更新意味着本地推理生态在消费级/通用硬件上的性能边界继续被推高，对离线部署和低成本推理很有参考价值。

#开源#开发者工具#技术突破

阅读原始全文