AI 精选动态智能评分 68

KPop 提升 MoE RL 稳定性

来源: twitter关注列表

作者: Ant Ling (@AntLingAGI)

发布于: 2026-05-26

收录于: 2026-05-26

AI 推荐理由

点开原文可重点看 KPop 的自适应 masking 机制、与 IcePop 的差异，以及纯 RL 达到 SWE-bench Verified 76+ 的训练设定是否可复现。

核心解读

团队提出 KPop，用自适应 binary-KL 区域替代 IcePop 里的固定比例 mask，以匹配每个 token 的噪声强度，从而提升大型 MoE 模型的 RL 训练稳定性和长时程 agentic RL 更新稳定性。该方法宣称无需修改基础设施、无需 routing replay，仅通过一个参数即可生效，并使 Ring-2.6-1T 在纯 RL 训练下在 SWE-bench Verified 上达到 76+。原帖同时回顾了去年发布的 IcePop：其通过双向 masking 稳定 MoE RL，但后续观察到 masking ratio 下降而训练-推理 mismatch 继续扩大。

#研究突破#智能体#大模型

阅读原始全文