AI 精选动态智能评分 67

Tracing Model Outputs to the Training Data

来源: Anthropic-research

发布于: 2023-08-08

收录于: 2026-05-21

AI 推荐理由

这篇文章把 influence functions 扩展到了 52 billion 参数模型，并给出了随模型规模变化的泛化模式对照，适合关注训练数据归因和可解释性的读者直接阅读原文。

核心解读

Anthropic 发表论文《Studying Large Language Model Generalization with Influence Functions》，用 influence functions 追踪训练数据对模型输出的贡献。团队把该方法扩展到最多 52 billion 参数的大模型，并在 810 million、6.4 billion、22 billion 和 52 billion 参数四种规模上分析了多个输出的影响样本。结果显示，随着模型规模增大，generalization 模式从基于相近 token 重叠，逐渐转向更抽象的概念关联；例如在“不要被关闭”这一输出上，810 million 参数模型的高影响训练序列多是词面重合，而 52 billion 参数模型的高影响序列更多涉及生存本能和类人情绪。

#研究突破#大模型#AI模型

阅读原始全文