返回精选
AI 精选动态 智能评分 69

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

来源: twitter关注列表
作者: AK (@_akhaliq)
发布于: 2026-05-20
收录于: 2026-05-20
AI 推荐理由
方法直接针对 reasoning RL 中 self-distillation 的训练信号失真问题,给出了可替换默认方案的机制设计与多模型、多基准的量化结果,适合关注推理训练效率的人进一步看原文与代码。
核心解读
研究团队提出 Anti-Self-Distillation(AntiSD),用于 reasoning RL 中的 self-distillation。作者用 pointwise mutual information 分析发现,带有 verified solution 等 privileged context 的 teacher 会对结构性连接词和可验证陈述更有信心,却会削弱“Wait”“Let”“Maybe”等推动多步搜索的 deliberation token;AntiSD 通过改为上升 student 与 teacher 之间有界的 divergence,并加入 entropy-triggered gate,作为默认 self-distillation 的即插即用替代方案。该方法在 4B 到 30B 参数的 5 个模型上、math reasoning benchmarks 上,将达到 GRPO 基线准确率所需训练步数减少到 2 到 10 倍,并将最终准确率提升最高 11.5 分,覆盖 AIME 2024/2025、HMMT 2025 和 BeyondAIME。
#研究突破#大模型#基准测试