AI 精选动态
智能评分 68
Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks
AI 推荐理由
这篇值得看原文的重点在于其两阶段 exchange classifier 设计,以及它在成本、拒答率和攻击成功率上的量化改进,适合关注模型安全防护方案的人参考。核心解读
Anthropic 发布了新论文《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》,介绍用于防御 jailbreak 的第二代 Constitutional Classifiers++。相比第一代系统将 jailbreak 成功率从 86% 降到 4.4%、计算成本增加 23.7%、无害问题拒答率上升 0.38%,新系统采用两阶段 ensemble 架构:先用低成本 probe 观察 Claude 的内部激活,再把可疑交互交给更强的 classifier,同时改为同时检查对话输入和输出。Anthropic 表示,新系统把额外计算成本降到约 1%,成功攻击率是其测试过的最低水平,且尚未发现 universal jailbreak;在 GPQA Diamond 上,部分 jailbreak 方法会把模型表现从 74% 降到最低 32%。