AI 精选动态智能评分 67

Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-08

收录于: 2026-06-08

AI 推荐理由

这篇论文把“规模为何带来能力涌现”拆成了可检验的训练机制，并给出了从 toy task 到 4M-4B OLMo 的实验支撑，适合关注模型训练动态和容量-干扰关系的人直接读原文。

核心解读

Stanford、MIT、Harvard 和 Anthropic 的论文提出了一个训练层面的解释：更大的模型之所以更容易学会小模型学不到的能力，关键在于它们更不容易在训练中遗忘稀有技能。作者认为，问题不只是小模型“能不能表示”某个任务，而是持续出现的常见任务会不断更新同一有限参数区域，把稀有任务学到的弱信号覆盖掉。研究先在可控的 toy task 上验证，再在参数规模从 4M 到 4B 的 OLMo 语言模型上测试，结果显示更大的模型在低频任务上学得更好、在表示中保留了更多任务特征，并且梯度干扰更少。

#研究#大模型#技术

阅读原始全文