AI 精选动态
智能评分 72
Post-Trained MoE Can Skip Half Experts via Self-Distillation
AI 推荐理由
可重点看其把静态 MoE 变成动态 MoE 的改造方式,以及在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上实现约 50% expert 计算削减、约 20% 推理加速的具体条件。核心解读
一篇题为《Post-Trained MoE Can Skip Half Experts via Self-Distillation》的论文提出 Zero-Expert Self-Distillation Adaptation(ZEDA),用低成本方法把已后训练的静态 MoE 模型改造成动态 MoE。作者在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上实验,称可移除约 50% 的 expert 计算,平均准确率仅有轻微下降,并带来约 20% 的真实推理速度提升。论文还指出,模型在不确定性更高或师生分歧更大的位置会消耗更多 expert 预算,而结构化代码和数学片段通常需要更少。