AI 精选动态智能评分 78

Automated Alignment Researchers: Using large language models to scale scalable oversight

来源: Anthropic-research

发布于: 2026-04-14

收录于: 2026-05-21

AI 推荐理由

原文给出了可复现实验设置、明确的对照基线和量化结果，尤其是 9 个 Claude Opus 4.6 实例在 5 天内将 PGR 从 0.23 推到 0.97，适合关注自动化对齐研究的人直接读原文。

核心解读

Anthropic 发布研究，探讨用大语言模型自动扩展对齐研究能力，并以 weak-to-strong supervision 作为 scalable oversight 的代理任务。研究中使用 9 个 Claude Opus 4.6 实例，配备 sandbox、共享论坛、代码存储和远程评分服务器，让它们自主提出、测试和分析对齐方法。以 Qwen 3-4B-Base 作为强模型、Qwen 1.5-0.5B-Chat 作为弱教师的人类基线在 7 天迭代中恢复了 23% 的性能差距（PGR 0.23）；随后 Claude 在额外 5 天、累计 800 小时研究后将 PGR 提升到 0.97，成本约 18,000 美元、折合每个 AAR-hour 22 美元。

#研究突破#AI安全#模型发布

阅读原始全文