AI 精选动态
智能评分 72
A Primer in Post-Training Reasoning Data: What They Know About How It Works
AI 推荐理由
这篇论文把后训练推理数据拆成可核验信号、行为轨迹和元数据三层,适合关注数据构造、agent 训练和评测设计的人直接阅读。核心解读
作者在 arXiv 论文《A Primer in Post-Training Reasoning Data: What They Know About How It Works》中讨论了推理模型在后训练阶段如何通过“可核验”的训练证据提升,而不只是依赖原始数据规模。文章指出,推理数据不应被简化为问答对,而应记录任务、模型行为、检查信号和来源元数据,并按可核验方式分类,包括数学和代码的规则校验、智能体工具使用的环境校验,以及无法精确校验时的人类或模型判断。作者还强调,长推理轨迹可能是伪造的,困难样本未必对所有模型有效,更大的数据集也可能仍然缺少关键覆盖;对于 agent 数据,应保留失败动作、重试、恢复、状态差异和终止检查,因为这些信息往往包含主要学习信号。