AI 精选动态
智能评分 69
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
AI 推荐理由
方法直接针对 reasoning RL 中 self-distillation 的训练信号失真问题,给出了可替换默认方案的机制设计与多模型、多基准的量化结果,适合关注推理训练效率的人进一步看原文与代码。核心解读
研究团队提出 Anti-Self-Distillation(AntiSD),用于 reasoning RL 中的 self-distillation。作者用 pointwise mutual information 分析发现,带有 verified solution 等 privileged context 的 teacher 会对结构性连接词和可验证陈述更有信心,却会削弱“Wait”“Let”“Maybe”等推动多步搜索的 deliberation token;AntiSD 通过改为上升 student 与 teacher 之间有界的 divergence,并加入 entropy-triggered gate,作为默认 self-distillation 的即插即用替代方案。该方法在 4B 到 30B 参数的 5 个模型上、math reasoning benchmarks 上,将达到 GRPO 基线准确率所需训练步数减少到 2 到 10 倍,并将最终准确率提升最高 11.5 分,覆盖 AIME 2024/2025、HMMT 2025 和 BeyondAIME。