AI 精选动态智能评分 65

Agents' Last Exam (ALE) 基准测试结果

来源: twitter关注列表

作者: Noam Brown (@polynoamial)

发布于: 2026-06-11

收录于: 2026-06-11

AI 推荐理由

提供了顶尖 Agent 在极高难度任务中成功率为 0% 的量化数据，量化了当前 Agent 与“具备就业能力”之间的真实差距。

核心解读

Dawn Song 发布 Agents' Last Exam (ALE) 基准测试，在 55 个职业的 1,500 多个专家任务中评估 Fable 5, GPT-5.5, Composer 2.5 等 Agent 的实操能力。结果显示在最难级别任务中，所有 frontier agent 的成功率均为 0%，距离人类水平仍有显著差距。

#基准测试#智能体#研究

阅读原始全文