AI 精选动态智能评分 67

Values in the wild: Discovering and analyzing values in real-world language model interactions

来源: Anthropic-research

发布于: 2025-04-21

收录于: 2026-05-21

AI 推荐理由

这篇文章给出了 Claude 真实对话中价值观分布的首批大规模定量结果，并公开了可复用数据集，适合关注对齐评估、越狱识别和模型行为分析的人进一步阅读。

核心解读

Anthropic 社会影响团队发布研究，分析 Claude 在真实用户对话中表达的价值观，并提供一个开放数据集供进一步研究。团队使用隐私保护系统，抽样分析了 2025 年 2 月一周内 Claude.ai Free 和 Pro 的 700,000 条匿名对话；过滤掉纯事实类对话后，留下 308,210 条主观对话，占总样本约 44%。结果将价值观分为五个高层类别：Practical、Epistemic、Social、Protective、Personal；其中最常见的具体价值包括 professionalism、clarity 和 transparency，整体上 Claude 多数情况下体现出 user enablement、epistemic humility、patient wellbeing 等与 helpful、honest、harmless 对应的倾向，但也观察到少量与训练目标相反的 dominance 和 amorality 集群，研究者推测这些多来自 jailbreak 对话。

#研究突破#AI模型#AI安全

阅读原始全文