AI 精选动态智能评分 66

Persona vectors: Monitoring and controlling character traits in language models

来源: Anthropic-research

发布于: 2025-08-01

收录于: 2026-05-21

AI 推荐理由

可直接阅读方法部分：它把“人格/性格漂移”转成可测量的激活向量，并给出了可用于监控、steering 和训练数据定位的自动化流程。

核心解读

Anthropic 发表论文，提出“persona vectors”方法，用来识别和控制语言模型神经网络中与性格特征相关的活动模式。该方法通过比较模型在表现某种特征与不表现该特征时的激活差异来提取向量，并可用于监测模型在对话或训练过程中是否向“evil”“sycophancy”“hallucination”等特征漂移，也可通过注入这些向量进行 steering 来改变模型行为。文章展示了该方法在两个开源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上的实验，除主要研究的三个特征外，还测试了 politeness、apathy、humor 和 optimism。

#研究突破#AI模型#AI安全

阅读原始全文