AI 精选动态智能评分 69

Mapping the Mind of a Large Language Model

来源: Anthropic-research

发布于: 2024-05-21

收录于: 2026-05-21

AI 推荐理由

这篇文章的新增价值在于把 dictionary learning 从 toy model 扩展到生产级 Claude Sonnet，并展示了跨语言、跨模态、抽象概念特征的具体例子，适合关注可解释性与模型安全方法的人直接读原文。

核心解读

Anthropic 发布了对 Claude Sonnet 内部机制的可解释性研究，称已从 Claude 3.0 Sonnet 的中间层成功提取出数百万个特征，得到其计算过程中“内部状态”的粗略概念地图。文中对比了 2023 年 10 月他们在一个很小的 toy language model 上使用 dictionary learning 的结果，指出这次扩展到当前生产级模型，是首次对现代生产级大语言模型做出如此详细的内部观察。研究还展示了这些特征可跨语言、跨模态触发，覆盖 San Francisco、Rosalind Franklin、Lithium、immunology、function calls 等实体与概念，以及 bugs in computer code、gender bias、keeping secrets 等更抽象主题。

#研究突破#模型发布#AI安全

阅读原始全文