AI 精选动态
智能评分 64
Agents' Last Exam
AI 推荐理由
该基准把评测目标从静态题集推进到更接近真实职业任务覆盖,且给出了 1,000+ 任务、250+ 专家参与和 2.6% 通过率,适合关注 agent 评测体系的人直接看原文。核心解读
DAIR.AI 发布了 Agents' Last Exam(ALE),这是一个持续更新的基准,包含 1,000+ 个具有经济价值的任务,并由 250+ 位行业专家构建,且映射到美国联邦职业分类体系。该基准中最难的层级在主流 harness 和 backbone 上的平均 full pass rate 仅为 2.6%。作者将其定位为更接近 GDP 覆盖率测量工具,而不是一个会在一个月内被刷满的测试。