AI 精选动态智能评分 68

The assistant axis: situating and stabilizing the character of large language models

来源: Anthropic-research

发布于: 2026-01-19

收录于: 2026-05-21

AI 推荐理由

这篇文章把“助手人格”从定性描述推进到可测量的神经方向，并给出可用于监控与约束的 activation capping 方法，适合关注模型对齐与表征机制的人直接读原文和看 demo。

核心解读

Anthropic 通过 MATS 和 Anthropic Fellows 项目发布一篇研究博客，分析了 3 个开源权重模型 Gemma 2 27B、Qwen 3 32B、Llama 3.3 70B 的神经表征，构建了 275 个角色原型的“persona space”。研究发现，其中存在一条与“Assistant-like”行为高度相关的主方向“Assistant Axis”，与主成分分析中的主轴一致；与该轴更接近的角色包括 evaluator、consultant、analyst、generalist，而更远的一端包括 ghost、hermit、bohemian、leviathan。作者还指出，可通过监控模型在该轴上的活动来发现其从 Assistant 角色漂移，并用 activation capping 限制这种漂移，以减少有害输出；同时与 Neuronpedia 合作提供了一个研究演示，可在对话中查看标准模型与 activation-capped 版本沿该轴的激活变化。

#研究突破#AI安全#大模型

阅读原始全文