AI 精选动态智能评分 66

Decomposing Language Models Into Understandable Components

来源: Anthropic-research

发布于: 2023-10-05

收录于: 2026-05-21

AI 推荐理由

这篇文章新增的重点不是单纯“可解释性”概念，而是给出把 512 神经元分解为 4000+ feature 的方法、盲评与 autointerpretability 的验证，以及可用于干预模型行为的具体路径，值得关注原文方法细节。

核心解读

Anthropic 介绍了论文《Towards Monosemanticity: Decomposing Language Models With Dictionary Learning》，提出用 dictionary learning 将小型 transformer 模型中的神经元组合分解为可解释的 feature，而不是直接解释单个 neuron。文中称，在一个 512 个神经元的层上可分解出 4000+ 个 feature，这些 feature 分别对应 DNA 序列、法律文本、HTTP 请求、希伯来文和营养声明等模式；盲评显示 feature 的可解释性得分显著高于 neuron。研究还用大模型生成 feature 描述并做 autointerpretability 评估，结果同样显示 feature 优于 neuron，并演示了人工激活 feature 可以以可预测方式改变模型行为；作者还称，不同模型学到的 feature 具有较强通用性，且可通过调节 feature 数量控制观察分辨率。

#研究突破#AI安全#大模型

阅读原始全文