AI 精选动态智能评分 63

Measuring Faithfulness in Chain-of-Thought Reasoning

来源: Anthropic-research

发布于: 2023-07-18

收录于: 2026-05-21

AI 推荐理由

原文给出了对 CoT 忠实性更细的因果干预视角，适合关注可解释性、推理对齐与提示工程边界的人直接阅读。

核心解读

研究团队考察了大语言模型在输出 Chain-of-Thought（CoT）推理时，这些“逐步推理”是否忠实反映了模型真实的决策过程。研究通过干预 CoT 内容（例如加入错误或改写措辞）观察模型预测变化，发现不同任务中模型对 CoT 的依赖程度差异很大：有时强烈依赖 CoT，有时主要忽略它。研究还指出，CoT 带来的性能提升似乎并不只是来自测试时额外计算量，也不只是来自推理文本中特定措辞编码的信息；随着模型规模和能力增大，模型在大多数研究任务上的推理忠实性反而降低。

#研究突破#大模型

阅读原始全文