AI 精选动态
智能评分 68
Constitutional Classifiers: Defending against universal jailbreaks
AI 推荐理由
建议重点看方法部分与评测设计:它给出了针对 universal jailbreak 的可复现实验框架,以及在 10,000 个攻击样本上将成功率从 86% 降到 4.4% 的量化结果。核心解读
Anthropic Safeguards Research Team 发表论文《Constitutional Classifiers: Defending against universal jailbreaks》,提出一套基于输入/输出分类器的防越狱系统,用合成数据训练后可拦截大多数 jailbreak,同时尽量减少误拒和计算开销。人工红队测试中,183 名参与者在两个月内累计投入估计超过 3,000 小时,针对 10 个“禁用”查询攻击 Claude 3.5 Sonnet(June 2024)原型系统,最高奖励为 15,000 美元,但未发现单次可让模型对全部 10 个问题都作答的 universal jailbreak。自动化评测中,Anthropic 生成了 10,000 个 jailbreak prompts,Claude 3.5 Sonnet(October 2024)在无防护时 jailbreak success rate 为 86%,加入 Constitutional Classifiers 后降至 4.4%;同时,生产流量上的拒答率并未显著上升,计算成本仅中度增加,最新版本将误拒率额外增加控制在 0.38%。