AI 精选动态
智能评分 72
Petri: An open-source auditing tool to accelerate AI safety research
AI 推荐理由
工具本身提供了可复用的自动化审计流程,且附带 14 个模型、111 条场景的试点评测结果,适合关注模型对齐与安全评估方法的团队直接参考或复现。核心解读
Anthropic 发布了名为 Petri(Parallel Exploration Tool for Risky Interactions)的开源审计工具,用于帮助研究者通过模拟用户和工具的多轮对话,自动测试目标 AI 系统的行为并对结果进行评分与总结。该工具把原本需要人工搭建环境、运行模型、阅读转录和汇总结果的流程自动化,并支持研究者用自然语言提供种子指令后并行探索多个假设。Anthropic 用 Petri 在 14 个前沿模型上、基于 111 条多样化种子指令做了试点评测,覆盖欺骗、阿谀奉承、诱导用户妄想、配合有害请求、自我保存、权力寻求和 reward hacking 等行为;结果显示 Claude Sonnet 4.5 在整体“misaligned behavior”分数上风险最低,略优于 GPT-5。