AI 精选动态
智能评分 68
The assistant axis: situating and stabilizing the character of large language models
AI 推荐理由
这篇文章把“助手人格”从定性描述推进到可测量的神经方向,并给出可用于监控与约束的 activation capping 方法,适合关注模型对齐与表征机制的人直接读原文和看 demo。核心解读
Anthropic 通过 MATS 和 Anthropic Fellows 项目发布一篇研究博客,分析了 3 个开源权重模型 Gemma 2 27B、Qwen 3 32B、Llama 3.3 70B 的神经表征,构建了 275 个角色原型的“persona space”。研究发现,其中存在一条与“Assistant-like”行为高度相关的主方向“Assistant Axis”,与主成分分析中的主轴一致;与该轴更接近的角色包括 evaluator、consultant、analyst、generalist,而更远的一端包括 ghost、hermit、bohemian、leviathan。作者还指出,可通过监控模型在该轴上的活动来发现其从 Assistant 角色漂移,并用 activation capping 限制这种漂移,以减少有害输出;同时与 Neuronpedia 合作提供了一个研究演示,可在对话中查看标准模型与 activation-capped 版本沿该轴的激活变化。