返回精选
AI 精选动态 智能评分 68

Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks

来源: Anthropic-research
发布于: 2026-01-09
收录于: 2026-05-21
AI 推荐理由
这篇值得看原文的重点在于其两阶段 exchange classifier 设计,以及它在成本、拒答率和攻击成功率上的量化改进,适合关注模型安全防护方案的人参考。
核心解读
Anthropic 发布了新论文《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》,介绍用于防御 jailbreak 的第二代 Constitutional Classifiers++。相比第一代系统将 jailbreak 成功率从 86% 降到 4.4%、计算成本增加 23.7%、无害问题拒答率上升 0.38%,新系统采用两阶段 ensemble 架构:先用低成本 probe 观察 Claude 的内部激活,再把可疑交互交给更强的 classifier,同时改为同时检查对话输入和输出。Anthropic 表示,新系统把额外计算成本降到约 1%,成功攻击率是其测试过的最低水平,且尚未发现 universal jailbreak;在 GPQA Diamond 上,部分 jailbreak 方法会把模型表现从 74% 降到最低 32%。
#AI安全#研究突破#大模型