返回精选
AI 精选动态 智能评分 66

Language Models (Mostly) Know What They Know

来源: Anthropic-research
发布于: 2022-07-11
收录于: 2026-05-21
AI 推荐理由
文中给出了 P(True) 与 P(IK) 两条自评路径及其跨任务泛化结果,适合关注模型校准、拒答与诚实性训练的人直接读摘要和方法设定。
核心解读
研究者评估语言模型能否判断自身回答是否正确,以及能否预测自己是否知道答案。结果显示,在提供合适格式时,更大的模型在多项选择题和判断题上校准较好;在开放式采样任务中,先生成答案再估计该答案为真的概率“P(True)”也表现出较好的性能、校准性和规模效应。进一步让模型在预测某个具体候选答案是否为真之前先考虑多个自生成样本,可继续提升自评表现;模型也能学习预测“P(IK)”——即不依赖具体答案时自己是否知道答案的概率,并能在新任务上部分迁移,但在新任务上的校准仍较弱。
#研究突破#大模型