返回精选
AI 精选动态 智能评分 78

Automated Alignment Researchers: Using large language models to scale scalable oversight

来源: Anthropic-research
发布于: 2026-04-14
收录于: 2026-05-21
AI 推荐理由
原文给出了可复现实验设置、明确的对照基线和量化结果,尤其是 9 个 Claude Opus 4.6 实例在 5 天内将 PGR 从 0.23 推到 0.97,适合关注自动化对齐研究的人直接读原文。
核心解读
Anthropic 发布研究,探讨用大语言模型自动扩展对齐研究能力,并以 weak-to-strong supervision 作为 scalable oversight 的代理任务。研究中使用 9 个 Claude Opus 4.6 实例,配备 sandbox、共享论坛、代码存储和远程评分服务器,让它们自主提出、测试和分析对齐方法。以 Qwen 3-4B-Base 作为强模型、Qwen 1.5-0.5B-Chat 作为弱教师的人类基线在 7 天迭代中恢复了 23% 的性能差距(PGR 0.23);随后 Claude 在额外 5 天、累计 800 小时研究后将 PGR 提升到 0.97,成本约 18,000 美元、折合每个 AAR-hour 22 美元。
#研究突破#AI安全#模型发布