AI 精选动态智能评分 64

Agents' Last Exam

来源: twitter关注列表

作者: elvis (@omarsar0)

发布于: 2026-06-05

收录于: 2026-06-05

AI 推荐理由

该基准把评测目标从静态题集推进到更接近真实职业任务覆盖，且给出了 1,000+ 任务、250+ 专家参与和 2.6% 通过率，适合关注 agent 评测体系的人直接看原文。

核心解读

DAIR.AI 发布了 Agents' Last Exam（ALE），这是一个持续更新的基准，包含 1,000+ 个具有经济价值的任务，并由 250+ 位行业专家构建，且映射到美国联邦职业分类体系。该基准中最难的层级在主流 harness 和 backbone 上的平均 full pass rate 仅为 2.6%。作者将其定位为更接近 GDP 覆盖率测量工具，而不是一个会在一个月内被刷满的测试。

#基准测试#智能体#研究

阅读原始全文