AI 精选动态智能评分 69

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

来源: twitter关注列表

作者: AK (@_akhaliq)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

方法直接针对 reasoning RL 中 self-distillation 的训练信号失真问题，给出了可替换默认方案的机制设计与多模型、多基准的量化结果，适合关注推理训练效率的人进一步看原文与代码。

核心解读

研究团队提出 Anti-Self-Distillation（AntiSD），用于 reasoning RL 中的 self-distillation。作者用 pointwise mutual information 分析发现，带有 verified solution 等 privileged context 的 teacher 会对结构性连接词和可验证陈述更有信心，却会削弱“Wait”“Let”“Maybe”等推动多步搜索的 deliberation token；AntiSD 通过改为上升 student 与 teacher 之间有界的 divergence，并加入 entropy-triggered gate，作为默认 self-distillation 的即插即用替代方案。该方法在 4B 到 30B 参数的 5 个模型上、math reasoning benchmarks 上，将达到 GRPO 基线准确率所需训练步数减少到 2 到 10 倍，并将最终准确率提升最高 11.5 分，覆盖 AIME 2024/2025、HMMT 2025 和 BeyondAIME。

#研究突破#大模型#基准测试

阅读原始全文