返回精选
AI 精选动态 智能评分 68

KPop 提升 MoE RL 稳定性

来源: twitter关注列表
作者: Ant Ling (@AntLingAGI)
发布于: 2026-05-26
收录于: 2026-05-26
AI 推荐理由
点开原文可重点看 KPop 的自适应 masking 机制、与 IcePop 的差异,以及纯 RL 达到 SWE-bench Verified 76+ 的训练设定是否可复现。
核心解读
团队提出 KPop,用自适应 binary-KL 区域替代 IcePop 里的固定比例 mask,以匹配每个 token 的噪声强度,从而提升大型 MoE 模型的 RL 训练稳定性和长时程 agentic RL 更新稳定性。该方法宣称无需修改基础设施、无需 routing replay,仅通过一个参数即可生效,并使 Ring-2.6-1T 在纯 RL 训练下在 SWE-bench Verified 上达到 76+。原帖同时回顾了去年发布的 IcePop:其通过双向 masking 稳定 MoE RL,但后续观察到 masking ratio 下降而训练-推理 mismatch 继续扩大。
#研究突破#智能体#大模型