AI 精选动态
智能评分 67
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
AI 推荐理由
这篇论文把“规模为何带来能力涌现”拆成了可检验的训练机制,并给出了从 toy task 到 4M-4B OLMo 的实验支撑,适合关注模型训练动态和容量-干扰关系的人直接读原文。核心解读
Stanford、MIT、Harvard 和 Anthropic 的论文提出了一个训练层面的解释:更大的模型之所以更容易学会小模型学不到的能力,关键在于它们更不容易在训练中遗忘稀有技能。作者认为,问题不只是小模型“能不能表示”某个任务,而是持续出现的常见任务会不断更新同一有限参数区域,把稀有任务学到的弱信号覆盖掉。研究先在可控的 toy task 上验证,再在参数规模从 4M 到 4B 的 OLMo 语言模型上测试,结果显示更大的模型在低频任务上学得更好、在表示中保留了更多任务特征,并且梯度干扰更少。