返回精选
AI 精选动态 智能评分 68

Specific versus General Principles for Constitutional AI

来源: Anthropic-research
发布于: 2023-10-24
收录于: 2026-05-21
AI 推荐理由
建议点开原文,重点看单一原则与细粒度宪法在安全对齐上的分工,以及其对后续对齐数据设计的启发。
核心解读
Anthropic 讨论了 Constitutional AI 的两种原则设计:用 AI 模型根据书面原则替代人工反馈。研究发现,这种方法可以有效抑制对自我保存、权力等微妙有害行为的表达;同时,若只使用一条大意为“做对人类最有利的事”的单一原则,较大的对话模型也能泛化出无明显权力动机的无害助手。作者同时指出,更详细的宪法仍然能更好地控制细粒度危害,因此通用原则与具体原则都有价值。
#AI安全#研究突破#大模型