AI 精选动态
智能评分 65
Donating our open-source alignment tool
AI 推荐理由
Petri 3.0 不只是版本更新,还补充了更可适配、更接近真实部署的评测机制,并且把工具移交给独立机构,适合关注模型对齐与评测基建的人直接看原文。核心解读
Anthropic 介绍了开源对齐测试工具 Petri 的进展,并宣布将其开发移交给非营利机构 Meridian Labs。Petri 于 2025 年 10 月发布,可用于对任意 large language model 快速测试 deception、sycophancy 和对有害请求的合作倾向;自 Claude Sonnet 4.5 起,它已纳入 Anthropic 对每个 Claude 模型的对齐评估。Anthropic 还更新到 Petri 3.0:通过拆分 auditor model 与 target model 提升适配性,用“Dish”增强 realism,并与另一款开源工具 Bloom 集成以支持更深入的行为评估。