AI 精选动态智能评分 68

Forecasting rare language model behaviors

来源: Anthropic-research

发布于: 2025-02-25

收录于: 2026-05-21

AI 推荐理由

这篇工作把稀有风险评估从“有限样本检查”推进到“基于幂律的规模外推”，并给出了 86%、0.05、0.12、79% 等可复现实证结果，适合关注模型对齐与红队评测方法的人直接阅读原文。

核心解读

Anthropic Alignment Science 团队发布一篇新论文，提出用幂律外推来预测语言模型在部署前的稀有危险行为风险。研究先用数千条到更大规模的查询采样估计高风险提示的危险响应概率，再将观测到的“最高风险查询”随查询数增长的关系拟合为 power law，用以外推到数百万次查询场景。结果显示，在将约 900 条查询外推到约 90,000 条查询的危险信息生成风险预测中，86% 的预测误差在真实风险的 1 个数量级内；在权力寻求、自我保存、自我外泄等错位行为预测上，该方法的平均绝对误差为 0.05，低于基线方法的 0.12。用于 automated red-teaming 预算分配时，该方法在需要做取舍的场景中有 79% 的概率识别出最优模型。

#研究突破#AI安全#大模型

阅读原始全文