AI 精选动态智能评分 72

Signs of introspection in large language models

来源: Anthropic-research

发布于: 2025-10-29

收录于: 2026-05-21

AI 推荐理由

建议重点看实验设计与 concept injection 方法，因为文中给出了模型如何在不相关上下文中识别被注入概念的具体证据，且 Claude Opus 4/4.1 的结果可作为后续可复现实验的参照。

核心解读

Anthropic 发布了一篇关于大语言模型内省能力的新研究，使用 concept injection 这种实验方法检验 Claude 模型是否能识别自身内部状态。研究显示，当前 Claude 模型中存在一定程度的内省意识和对内部状态的控制能力，但这种能力仍然高度不稳定、范围有限，且作者明确表示没有证据表明其内省方式或程度接近人类。测试中，表现最好的模型是 Claude Opus 4 和 4.1；在“all caps”概念注入实验里，模型能在提到具体概念前就先察觉到有异常注入，并将其识别为 loudness 或 shouting 相关。

#研究突破#大模型#AI模型

阅读原始全文