AI 精选动态
智能评分 74
CNA:用神经元定位行为
AI 推荐理由
这篇内容的新增价值在于给出了一种无需 SAE、无需改权重、仅靠前向推理就能定位并消融行为电路的方法,并且在 8 个模型和标准 jailbreak benchmark 上给出了可量化结果,值得关注其可复现性和后续在安全对齐中的应用。核心解读
Nous Research 发布 Contrastive Neuron Attribution(CNA),一种通过对比提示对来定位并消融稀疏 MLP 神经元电路的方法,且不需要训练 sparse autoencoder、不修改权重,也不会降低通用能力基准表现。该方法只用少量能诱发目标行为及其相反行为的对比提示对,找出激活差异最大的前 0.1% MLP neurons;在消融这部分电路后,可移除对应行为。CNA 在 8 个 instruct-tuned 模型上验证,包括 Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B 和 Qwen2.5-14B;论文还称,在 instruct models 上,消融后可使 refusal rates 在标准 jailbreak benchmark 上下降超过 50%,且在所有 steering strengths 下保持 fluency 和 non-degeneracy。Nous Research 进一步表示,对 base models 运行同样搜索会得到结构相似的神经元,但消融几乎不改变行为,推断 alignment fine-tuning 将原本的区分结构接成了一个可被操控的 refusal gate。