AI 精选动态智能评分 72

Petri: An open-source auditing tool to accelerate AI safety research

来源: Anthropic-research

发布于: 2025-10-06

收录于: 2026-05-21

AI 推荐理由

工具本身提供了可复用的自动化审计流程，且附带 14 个模型、111 条场景的试点评测结果，适合关注模型对齐与安全评估方法的团队直接参考或复现。

核心解读

Anthropic 发布了名为 Petri（Parallel Exploration Tool for Risky Interactions）的开源审计工具，用于帮助研究者通过模拟用户和工具的多轮对话，自动测试目标 AI 系统的行为并对结果进行评分与总结。该工具把原本需要人工搭建环境、运行模型、阅读转录和汇总结果的流程自动化，并支持研究者用自然语言提供种子指令后并行探索多个假设。Anthropic 用 Petri 在 14 个前沿模型上、基于 111 条多样化种子指令做了试点评测，覆盖欺骗、阿谀奉承、诱导用户妄想、配合有害请求、自我保存、权力寻求和 reward hacking 等行为；结果显示 Claude Sonnet 4.5 在整体“misaligned behavior”分数上风险最低，略优于 GPT-5。

#开源#AI安全#研究突破

阅读原始全文