AI 精选动态智能评分 72

Post-Trained MoE Can Skip Half Experts via Self-Distillation

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-24

收录于: 2026-05-24

AI 推荐理由

可重点看其把静态 MoE 变成动态 MoE 的改造方式，以及在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上实现约 50% expert 计算削减、约 20% 推理加速的具体条件。

核心解读

一篇题为《Post-Trained MoE Can Skip Half Experts via Self-Distillation》的论文提出 Zero-Expert Self-Distillation Adaptation（ZEDA），用低成本方法把已后训练的静态 MoE 模型改造成动态 MoE。作者在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上实验，称可移除约 50% 的 expert 计算，平均准确率仅有轻微下降，并带来约 20% 的真实推理速度提升。论文还指出，模型在不确定性更高或师生分歧更大的位置会消耗更多 expert 预算，而结构化代码和数学片段通常需要更少。

#研究突破#大模型#技术突破

阅读原始全文