AI 精选动态智能评分 74

Developing Nuclear Safeguards for AI

来源: Anthropic-red

发布于: 2025-08-21

收录于: 2026-05-21

AI 推荐理由

这是少见的“模型安全 + 政府核安全机构”联合落地案例，且给出了 94.8% 检测率、0 误报和 96.2% 标签准确率，值得关注其可迁移的防护方法与评估思路。

核心解读

Anthropic 与 U.S. Department of Energy（DOE）的 National Nuclear Security Administration（NNSA）及国家实验室共同开发了一个 classifier，用于自动区分核相关对话中的“令人担忧”与“良性”内容。该系统在初步测试中达到 96% 准确率；在合成测试中，对核武器查询的检测率为 94.8%，且误报为 0，整体标签准确率为 96.2%。Anthropic 表示已将该 classifier 部署到 Claude 流量中，用于识别模型滥用，并计划向 Frontier Model Forum 分享该方法，作为与 NNSA 合作建立类似防护的蓝本。

#AI安全#行业动态#基础设施

阅读原始全文