AI 精选动态智能评分 68

Constitutional Classifiers: Defending against universal jailbreaks

来源: Anthropic-research

发布于: 2025-02-03

收录于: 2026-05-21

AI 推荐理由

建议重点看方法部分与评测设计：它给出了针对 universal jailbreak 的可复现实验框架，以及在 10,000 个攻击样本上将成功率从 86% 降到 4.4% 的量化结果。

核心解读

Anthropic Safeguards Research Team 发表论文《Constitutional Classifiers: Defending against universal jailbreaks》，提出一套基于输入/输出分类器的防越狱系统，用合成数据训练后可拦截大多数 jailbreak，同时尽量减少误拒和计算开销。人工红队测试中，183 名参与者在两个月内累计投入估计超过 3,000 小时，针对 10 个“禁用”查询攻击 Claude 3.5 Sonnet（June 2024）原型系统，最高奖励为 15,000 美元，但未发现单次可让模型对全部 10 个问题都作答的 universal jailbreak。自动化评测中，Anthropic 生成了 10,000 个 jailbreak prompts，Claude 3.5 Sonnet（October 2024）在无防护时 jailbreak success rate 为 86%，加入 Constitutional Classifiers 后降至 4.4%；同时，生产流量上的拒答率并未显著上升，计算成本仅中度增加，最新版本将误拒率额外增加控制在 0.38%。

#AI安全#研究突破#基础设施

阅读原始全文