返回精选
AI 精选动态 智能评分 74

Developing Nuclear Safeguards for AI

来源: Anthropic-red
发布于: 2025-08-21
收录于: 2026-05-21
AI 推荐理由
这是少见的“模型安全 + 政府核安全机构”联合落地案例,且给出了 94.8% 检测率、0 误报和 96.2% 标签准确率,值得关注其可迁移的防护方法与评估思路。
核心解读
Anthropic 与 U.S. Department of Energy(DOE)的 National Nuclear Security Administration(NNSA)及国家实验室共同开发了一个 classifier,用于自动区分核相关对话中的“令人担忧”与“良性”内容。该系统在初步测试中达到 96% 准确率;在合成测试中,对核武器查询的检测率为 94.8%,且误报为 0,整体标签准确率为 96.2%。Anthropic 表示已将该 classifier 部署到 Claude 流量中,用于识别模型滥用,并计划向 Frontier Model Forum 分享该方法,作为与 NNSA 合作建立类似防护的蓝本。
#AI安全#行业动态#基础设施