AI 精选动态
智能评分 66
Widening the conversation on frontier AI
AI 推荐理由
原文给出了一个可复现的对齐思路:在决策循环中插入“伦理提醒”工具,并报告其在多个内部评估上降低 misaligned 行为率,值得关注其实现方式与后续结果披露。核心解读
Anthropic 在 2026年5月19日 发布文章,称过去几个月已与超过 15 个宗教和跨文化群体中的学者、神职人员、哲学家和伦理学家开展对话,讨论 frontier AI 引发的问题,并计划把范围扩展到法律学者、心理学家、作家和公民机构。Anthropic 还表示,这些讨论可能影响 Claude 的 constitution、训练的价值观以及行为评估范围;其在一项内部实验中给 Claude 加入了一个可在任务中调用的工具,用于返回伦理承诺提醒,结果在多个内部 alignment 评估上 misaligned 行为率明显下降。