返回精选
AI 精选动态 智能评分 65

Agents' Last Exam (ALE) 基准测试结果

来源: twitter关注列表
作者: Noam Brown (@polynoamial)
发布于: 2026-06-11
收录于: 2026-06-11
AI 推荐理由
提供了顶尖 Agent 在极高难度任务中成功率为 0% 的量化数据,量化了当前 Agent 与“具备就业能力”之间的真实差距。
核心解读
Dawn Song 发布 Agents' Last Exam (ALE) 基准测试,在 55 个职业的 1,500 多个专家任务中评估 Fable 5, GPT-5.5, Composer 2.5 等 Agent 的实操能力。结果显示在最难级别任务中,所有 frontier agent 的成功率均为 0%,距离人类水平仍有显著差距。
#基准测试#智能体#研究