AI 精选动态
智能评分 67
Values in the wild: Discovering and analyzing values in real-world language model interactions
AI 推荐理由
这篇文章给出了 Claude 真实对话中价值观分布的首批大规模定量结果,并公开了可复用数据集,适合关注对齐评估、越狱识别和模型行为分析的人进一步阅读。核心解读
Anthropic 社会影响团队发布研究,分析 Claude 在真实用户对话中表达的价值观,并提供一个开放数据集供进一步研究。团队使用隐私保护系统,抽样分析了 2025 年 2 月一周内 Claude.ai Free 和 Pro 的 700,000 条匿名对话;过滤掉纯事实类对话后,留下 308,210 条主观对话,占总样本约 44%。结果将价值观分为五个高层类别:Practical、Epistemic、Social、Protective、Personal;其中最常见的具体价值包括 professionalism、clarity 和 transparency,整体上 Claude 多数情况下体现出 user enablement、epistemic humility、patient wellbeing 等与 helpful、honest、harmless 对应的倾向,但也观察到少量与训练目标相反的 dominance 和 amorality 集群,研究者推测这些多来自 jailbreak 对话。