AI 精选动态智能评分 71

Scaling Laws and Interpretability of Learning from Repeated Data

来源: Anthropic-research

发布于: 2022-05-21

收录于: 2026-05-21

AI 推荐理由

值得结合自身数据配比检查训练集去重与重复采样策略，尤其是高质量数据重加权是否会带来意外的容量消耗和泛化退化。

核心解读

Anthropic 团队研究了大模型训练中的重复数据影响，训练了一组大部分数据唯一、少量数据被重复多次的模型，系统分析重复数据对性能和机制的作用。结果发现明显的“双重下降”现象：在训练中途，重复数据会让测试损失上升；例如，一个 800M 参数模型只要把 0.1% 的数据重复 100 次，性能就可能退化到相当于 400M 参数模型的水平，即使其余 90% 的训练 token 仍然是唯一数据。作者还指出，重复数据会显著损害复制能力以及与泛化相关的内部结构，例如 induction heads，这为模型从泛化转向记忆提供了机制解释。

#研究突破#大模型#基础设施

阅读原始全文