返回精选
AI 精选动态 智能评分 78

来源: twitter关注列表
作者: AK (@_akhaliq)
发布于: 2026-05-18
收录于: 2026-05-19
AI 推荐理由
这是直接影响本地推理性能的工程进展,能帮助从业者评估 speculative decoding/MTP 在实际部署中的收益与适用场景。
核心解读
llama.cpp 新增了对 Qwen3.6 家族的 MTP(Multi Token Prediction)支持,作者给出的测试显示在 DGX Spark 上吞吐可从约 7 tok/s 提升到 13.9–21.6 tok/s,整体加速大约 2x 以上。这个更新意味着本地推理生态在消费级/通用硬件上的性能边界继续被推高,对离线部署和低成本推理很有参考价值。
#开源#开发者工具#技术突破