返回精选
AI 精选动态 智能评分 61

Measuring Progress on Scalable Oversight for Large Language Models

来源: Anthropic-research
发布于: 2022-11-04
收录于: 2026-05-21
AI 推荐理由
原文给出了一种可操作的监督实验范式,并用 MMLU 和 time-limited QuALITY 证明了“人类+不可靠模型”优于单独人类和单独模型,适合关注 AI safety 与人机协作评测方法的人直接阅读全文。
核心解读
作者讨论了 large language models 的 scalable oversight 问题,即如何监督可能在多数任务能力上超过人类的系统,并提出一种可用于实证研究的实验设计:选择“人类专家能做、普通人和当前通用 AI 系统都做不好”的任务。论文用两个问答任务 MMLU 和 time-limited QuALITY 做了概念验证实验,结果显示:人类参与者通过聊天界面与一个不可靠的 large-language-model dialog assistant 交互时,表现显著超过模型单独作答,也超过自己不借助 AI 的表现。
#AI安全#研究突破#大模型