AI 精选动态智能评分 65

Donating our open-source alignment tool

来源: Anthropic-research

发布于: 2026-05-07

收录于: 2026-05-21

AI 推荐理由

Petri 3.0 不只是版本更新，还补充了更可适配、更接近真实部署的评测机制，并且把工具移交给独立机构，适合关注模型对齐与评测基建的人直接看原文。

核心解读

Anthropic 介绍了开源对齐测试工具 Petri 的进展，并宣布将其开发移交给非营利机构 Meridian Labs。Petri 于 2025 年 10 月发布，可用于对任意 large language model 快速测试 deception、sycophancy 和对有害请求的合作倾向；自 Claude Sonnet 4.5 起，它已纳入 Anthropic 对每个 Claude 模型的对齐评估。Anthropic 还更新到 Petri 3.0：通过拆分 auditor model 与 target model 提升适配性，用“Dish”增强 realism，并与另一款开源工具 Bloom 集成以支持更深入的行为评估。

#开源#AI安全#基础设施

阅读原始全文