AI 精选动态智能评分 71

Introducing Bloom: an open source tool for automated behavioral evaluations

来源: Anthropic-research

发布于: 2025-12-19

收录于: 2026-05-21

AI 推荐理由

适合关注对齐评测方法的团队直接查看其四阶段流水线、seed 设计与评测配置方式，并参考其在 16 个模型上的行为基准结果复现类似流程。

核心解读

Anthropic 发布了 Bloom，一个开源的 agentic framework，用于自动生成前沿 AI 模型的行为评测。Bloom 先根据研究者指定的行为描述和 seed configuration 生成场景，再通过 rollout 和 judge 流程量化该行为的发生频率与严重程度；Anthropic 表示，它与人工标注判断高度相关，并能稳定区分 baseline models 和 intentionally misaligned models。Anthropic 还公布了 4 类行为——delusional sycophancy、instructed long-horizon sabotage、self-preservation、self-preferential bias——在 16 个 frontier models 上的 benchmark 结果，相关评测只用了几天完成概念设计、打磨和生成；评测中每个 suite 包含 100 次 distinct rollouts，误差条基于 3 次重复，统一使用 Claude Opus 4.1 作为 evaluator。

#开源#研究突破#AI安全

阅读原始全文