AI 精选动态智能评分 74

CNA：用神经元定位行为

来源: twitter关注列表

作者: Nous Research (@NousResearch)

发布于: 2026-05-19

收录于: 2026-05-19

AI 推荐理由

这篇内容的新增价值在于给出了一种无需 SAE、无需改权重、仅靠前向推理就能定位并消融行为电路的方法，并且在 8 个模型和标准 jailbreak benchmark 上给出了可量化结果，值得关注其可复现性和后续在安全对齐中的应用。

核心解读

Nous Research 发布 Contrastive Neuron Attribution（CNA），一种通过对比提示对来定位并消融稀疏 MLP 神经元电路的方法，且不需要训练 sparse autoencoder、不修改权重，也不会降低通用能力基准表现。该方法只用少量能诱发目标行为及其相反行为的对比提示对，找出激活差异最大的前 0.1% MLP neurons；在消融这部分电路后，可移除对应行为。CNA 在 8 个 instruct-tuned 模型上验证，包括 Llama-3.1-70B、Llama-3.2-3B、Qwen2.5-72B 和 Qwen2.5-14B；论文还称，在 instruct models 上，消融后可使 refusal rates 在标准 jailbreak benchmark 上下降超过 50%，且在所有 steering strengths 下保持 fluency 和 non-degeneracy。Nous Research 进一步表示，对 base models 运行同样搜索会得到结构相似的神经元，但消融几乎不改变行为，推断 alignment fine-tuning 将原本的区分结构接成了一个可被操控的 refusal gate。

#研究突破#AI模型#AI安全

阅读原始全文