返回精选
AI 精选动态 智能评分 72

Post-Trained MoE Can Skip Half Experts via Self-Distillation

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-24
收录于: 2026-05-24
AI 推荐理由
可重点看其把静态 MoE 变成动态 MoE 的改造方式,以及在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上实现约 50% expert 计算削减、约 20% 推理加速的具体条件。
核心解读
一篇题为《Post-Trained MoE Can Skip Half Experts via Self-Distillation》的论文提出 Zero-Expert Self-Distillation Adaptation(ZEDA),用低成本方法把已后训练的静态 MoE 模型改造成动态 MoE。作者在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上实验,称可移除约 50% 的 expert 计算,平均准确率仅有轻微下降,并带来约 20% 的真实推理速度提升。论文还指出,模型在不确定性更高或师生分歧更大的位置会消耗更多 expert 预算,而结构化代码和数学片段通常需要更少。
#研究突破#大模型#技术突破