AI 精选动态
智能评分 74
AI 推荐理由
这类推理加速改动会直接影响本地部署成本、模型选择和服务吞吐,是开发者与基础设施团队需要跟进的实用更新。核心解读
llama.cpp 为 Qwen3.6 系列加入 MTP(Multi Token Prediction)支持后,本地推理速度显著提升;示例中在 A10G 上,Qwen3.6-27B dense generation 从 25 tok/s 提升到 45 tok/s,提升约 78%。这说明开源本地推理栈在通用硬件上的效率继续逼近可日常使用水平,对本地部署和低成本推理具有直接意义。