AI 精选动态智能评分 68

Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks

来源: Anthropic-research

发布于: 2026-01-09

收录于: 2026-05-21

AI 推荐理由

这篇值得看原文的重点在于其两阶段 exchange classifier 设计，以及它在成本、拒答率和攻击成功率上的量化改进，适合关注模型安全防护方案的人参考。

核心解读

Anthropic 发布了新论文《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》，介绍用于防御 jailbreak 的第二代 Constitutional Classifiers++。相比第一代系统将 jailbreak 成功率从 86% 降到 4.4%、计算成本增加 23.7%、无害问题拒答率上升 0.38%，新系统采用两阶段 ensemble 架构：先用低成本 probe 观察 Claude 的内部激活，再把可疑交互交给更强的 classifier，同时改为同时检查对话输入和输出。Anthropic 表示，新系统把额外计算成本降到约 1%，成功攻击率是其测试过的最低水平，且尚未发现 universal jailbreak；在 GPQA Diamond 上，部分 jailbreak 方法会把模型表现从 74% 降到最低 32%。

#AI安全#研究突破#大模型

阅读原始全文