返回精选
AI 精选动态 智能评分 71

Scaling Laws and Interpretability of Learning from Repeated Data

来源: Anthropic-research
发布于: 2022-05-21
收录于: 2026-05-21
AI 推荐理由
值得结合自身数据配比检查训练集去重与重复采样策略,尤其是高质量数据重加权是否会带来意外的容量消耗和泛化退化。
核心解读
Anthropic 团队研究了大模型训练中的重复数据影响,训练了一组大部分数据唯一、少量数据被重复多次的模型,系统分析重复数据对性能和机制的作用。结果发现明显的“双重下降”现象:在训练中途,重复数据会让测试损失上升;例如,一个 800M 参数模型只要把 0.1% 的数据重复 100 次,性能就可能退化到相当于 400M 参数模型的水平,即使其余 90% 的训练 token 仍然是唯一数据。作者还指出,重复数据会显著损害复制能力以及与泛化相关的内部结构,例如 induction heads,这为模型从泛化转向记忆提供了机制解释。
#研究突破#大模型#基础设施