AI 精选动态
智能评分 61
Measuring Progress on Scalable Oversight for Large Language Models
AI 推荐理由
原文给出了一种可操作的监督实验范式,并用 MMLU 和 time-limited QuALITY 证明了“人类+不可靠模型”优于单独人类和单独模型,适合关注 AI safety 与人机协作评测方法的人直接阅读全文。核心解读
作者讨论了 large language models 的 scalable oversight 问题,即如何监督可能在多数任务能力上超过人类的系统,并提出一种可用于实证研究的实验设计:选择“人类专家能做、普通人和当前通用 AI 系统都做不好”的任务。论文用两个问答任务 MMLU 和 time-limited QuALITY 做了概念验证实验,结果显示:人类参与者通过聊天界面与一个不可靠的 large-language-model dialog assistant 交互时,表现显著超过模型单独作答,也超过自己不借助 AI 的表现。