AI 精选动态智能评分 74

A “diff” tool for AI: Finding behavioral differences in new models

来源: Anthropic-research

发布于: 2026-03-13

收录于: 2026-05-21

AI 推荐理由

可重点看其跨架构 model diffing 的方法设定，以及对不同模型中可验证行为特征的定位方式，适合跟进后续是否能成为模型审计的通用工具。

核心解读

Anthropic 的 Anthropic Fellows 研究项目提出了一种面向 AI 模型的通用 diff 工具，用于比较不同架构的模型并自动定位可能存在行为差异的特征。该方法在数千个候选特征中识别并验证了若干“开关”式概念，包括 Qwen3-8B 和 DeepSeek-R1-0528-Qwen3-8B 中的“Chinese Communist Party Alignment”特征、Meta 的 Llama-3.1-8B-Instruct 中的“American Exceptionalism”特征，以及 OpenAI 的 GPT-OSS-20B 中独有的“Copyright Refusal Mechanism”特征。文章同时指出，这种方法并不能判定这些行为特征的来源，只能作为高召回筛查工具，帮助发现模型之间可能有风险的分歧。

#研究突破#AI安全#大模型

阅读原始全文