AI 精选动态智能评分 67

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

来源: Anthropic-research

发布于: 2022-08-22

收录于: 2026-05-21

AI 推荐理由

可优先查看其 red teaming 流程、统计方法和 38,961 条攻击样本的组织方式，便于复用到有害输出评测与安全对齐工作中。

核心解读

Anthropic 研究了对语言模型进行 red teaming 以发现、衡量并降低有害输出的方法，比较了 4 种模型类型：普通 LM、经过 helpful/honest/harmless 提示的 LM、使用 rejection sampling 的模型，以及通过 RLHF 训练的 helpful/harmless 模型。研究覆盖 3 个模型规模，分别为 2.7B、13B 和 52B 参数；结果显示，RLHF 模型随着规模增大越来越难以被 red team，而其他模型类型在规模上的趋势较平。团队还公开了 38,961 条 red team attacks 数据集，并系统说明了指令、流程、统计方法和不确定性，同时发布了 Red Teaming Policy Memo。

#AI安全#研究突破#大模型

阅读原始全文