AI 精选动态
智能评分 62
Open-sourcing circuit tracing tools
AI 推荐理由
可直接查看仓库和 demo notebook 评估该解释性方法是否适合复现,尤其适用于研究模型内部电路与行为分析。核心解读
Anthropic 将其近期解释性研究中的电路追踪方法开源,发布了可生成 attribution graphs 的开源库 circuit-tracer,并提供由 Neuronpedia 承载的交互式前端。该工具支持在常见开源权重模型上生成、可视化、标注和分享图,还可通过修改 feature 值来测试假设;官方已用它分析了 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理与多语言表示。项目由 Anthropic Fellows 计划参与者在 Decode Research 协作下完成,论文/示例笔记本与 GitHub 仓库同步开放。