AI 精选动态
智能评分 66
Decomposing Language Models Into Understandable Components
AI 推荐理由
这篇文章新增的重点不是单纯“可解释性”概念,而是给出把 512 神经元分解为 4000+ feature 的方法、盲评与 autointerpretability 的验证,以及可用于干预模型行为的具体路径,值得关注原文方法细节。核心解读
Anthropic 介绍了论文《Towards Monosemanticity: Decomposing Language Models With Dictionary Learning》,提出用 dictionary learning 将小型 transformer 模型中的神经元组合分解为可解释的 feature,而不是直接解释单个 neuron。文中称,在一个 512 个神经元的层上可分解出 4000+ 个 feature,这些 feature 分别对应 DNA 序列、法律文本、HTTP 请求、希伯来文和营养声明等模式;盲评显示 feature 的可解释性得分显著高于 neuron。研究还用大模型生成 feature 描述并做 autointerpretability 评估,结果同样显示 feature 优于 neuron,并演示了人工激活 feature 可以以可预测方式改变模型行为;作者还称,不同模型学到的 feature 具有较强通用性,且可通过调节 feature 数量控制观察分辨率。