AI 精选动态
智能评分 75
In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language ...
AI 推荐理由
从可解释性切入对齐问题,为模型行为审计与安全治理提供可落地的技术思路,对研究与工程团队具有直接参考价值。核心解读
Anthropic Fellows 发布关于“内省适配器”的研究,提出让语言模型在训练后自报所学行为与潜在对齐风险的方法。该工作为模型可解释性与对齐验证提供了面向开发者的技术路径。