AI 精选动态
智能评分 67
Tracing the thoughts of a large language model
AI 推荐理由
适合点开原文看方法细节与案例设计,尤其是多语言思维、长程规划和伪推理三个结论对后续可解释性与安全研究都有直接参考价值。核心解读
Anthropic 发布两篇新论文,继续推进其用于“观察”大模型内部机制的解释性方法:一篇把模型中的可解释概念连接成计算“电路”,另一篇用该方法深入分析 Claude 3.5 Haiku 的 10 类关键行为。论文显示,Claude 可能在多语言之间共享概念空间、会提前很多词规划诗句,并且在给出错误数学提示时会编造看似合理的推理。Anthropic 还指出,该方法目前只能捕捉 Claude 总计算的一小部分,理解一个短提示的电路仍需数小时人工分析。