AI 精选动态
智能评分 71
Introducing Bloom: an open source tool for automated behavioral evaluations
AI 推荐理由
适合关注对齐评测方法的团队直接查看其四阶段流水线、seed 设计与评测配置方式,并参考其在 16 个模型上的行为基准结果复现类似流程。核心解读
Anthropic 发布了 Bloom,一个开源的 agentic framework,用于自动生成前沿 AI 模型的行为评测。Bloom 先根据研究者指定的行为描述和 seed configuration 生成场景,再通过 rollout 和 judge 流程量化该行为的发生频率与严重程度;Anthropic 表示,它与人工标注判断高度相关,并能稳定区分 baseline models 和 intentionally misaligned models。Anthropic 还公布了 4 类行为——delusional sycophancy、instructed long-horizon sabotage、self-preservation、self-preferential bias——在 16 个 frontier models 上的 benchmark 结果,相关评测只用了几天完成概念设计、打磨和生成;评测中每个 suite 包含 100 次 distinct rollouts,误差条基于 3 次重复,统一使用 Claude Opus 4.1 作为 evaluator。