AI 精选动态
智能评分 78
AI 推荐理由
这是直接影响本地推理性能的工程进展,能帮助从业者评估 speculative decoding/MTP 在实际部署中的收益与适用场景。核心解读
llama.cpp 新增了对 Qwen3.6 家族的 MTP(Multi Token Prediction)支持,作者给出的测试显示在 DGX Spark 上吞吐可从约 7 tok/s 提升到 13.9–21.6 tok/s,整体加速大约 2x 以上。这个更新意味着本地推理生态在消费级/通用硬件上的性能边界继续被推高,对离线部署和低成本推理很有参考价值。