AI 精选动态智能评分 62

Open-sourcing circuit tracing tools

来源: Anthropic-research

发布于: 2025-05-29

收录于: 2026-05-21

AI 推荐理由

可直接查看仓库和 demo notebook 评估该解释性方法是否适合复现，尤其适用于研究模型内部电路与行为分析。

核心解读

Anthropic 将其近期解释性研究中的电路追踪方法开源，发布了可生成 attribution graphs 的开源库 circuit-tracer，并提供由 Neuronpedia 承载的交互式前端。该工具支持在常见开源权重模型上生成、可视化、标注和分享图，还可通过修改 feature 值来测试假设；官方已用它分析了 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理与多语言表示。项目由 Anthropic Fellows 计划参与者在 Decode Research 协作下完成，论文/示例笔记本与 GitHub 仓库同步开放。

#开源#研究突破#开发者工具

阅读原始全文