AI 精选动态
智能评分 67
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
AI 推荐理由
可优先查看其 red teaming 流程、统计方法和 38,961 条攻击样本的组织方式,便于复用到有害输出评测与安全对齐工作中。核心解读
Anthropic 研究了对语言模型进行 red teaming 以发现、衡量并降低有害输出的方法,比较了 4 种模型类型:普通 LM、经过 helpful/honest/harmless 提示的 LM、使用 rejection sampling 的模型,以及通过 RLHF 训练的 helpful/harmless 模型。研究覆盖 3 个模型规模,分别为 2.7B、13B 和 52B 参数;结果显示,RLHF 模型随着规模增大越来越难以被 red team,而其他模型类型在规模上的趋势较平。团队还公开了 38,961 条 red team attacks 数据集,并系统说明了指令、流程、统计方法和不确定性,同时发布了 Red Teaming Policy Memo。