返回精选
AI 精选动态 智能评分 64

Agents' Last Exam

来源: twitter关注列表
作者: elvis (@omarsar0)
发布于: 2026-06-05
收录于: 2026-06-05
AI 推荐理由
该基准把评测目标从静态题集推进到更接近真实职业任务覆盖,且给出了 1,000+ 任务、250+ 专家参与和 2.6% 通过率,适合关注 agent 评测体系的人直接看原文。
核心解读
DAIR.AI 发布了 Agents' Last Exam(ALE),这是一个持续更新的基准,包含 1,000+ 个具有经济价值的任务,并由 250+ 位行业专家构建,且映射到美国联邦职业分类体系。该基准中最难的层级在主流 harness 和 backbone 上的平均 full pass rate 仅为 2.6%。作者将其定位为更接近 GDP 覆盖率测量工具,而不是一个会在一个月内被刷满的测试。
#基准测试#智能体#研究