返回精选
AI 精选动态 智能评分 67

Tracing Model Outputs to the Training Data

来源: Anthropic-research
发布于: 2023-08-08
收录于: 2026-05-21
AI 推荐理由
这篇文章把 influence functions 扩展到了 52 billion 参数模型,并给出了随模型规模变化的泛化模式对照,适合关注训练数据归因和可解释性的读者直接阅读原文。
核心解读
Anthropic 发表论文《Studying Large Language Model Generalization with Influence Functions》,用 influence functions 追踪训练数据对模型输出的贡献。团队把该方法扩展到最多 52 billion 参数的大模型,并在 810 million、6.4 billion、22 billion 和 52 billion 参数四种规模上分析了多个输出的影响样本。结果显示,随着模型规模增大,generalization 模式从基于相近 token 重叠,逐渐转向更抽象的概念关联;例如在“不要被关闭”这一输出上,810 million 参数模型的高影响训练序列多是词面重合,而 52 billion 参数模型的高影响序列更多涉及生存本能和类人情绪。
#研究突破#大模型#AI模型