AI 精选动态
智能评分 65
Agents' Last Exam (ALE) 基准测试结果
AI 推荐理由
提供了顶尖 Agent 在极高难度任务中成功率为 0% 的量化数据,量化了当前 Agent 与“具备就业能力”之间的真实差距。核心解读
Dawn Song 发布 Agents' Last Exam (ALE) 基准测试,在 55 个职业的 1,500 多个专家任务中评估 Fable 5, GPT-5.5, Composer 2.5 等 Agent 的实操能力。结果显示在最难级别任务中,所有 frontier agent 的成功率均为 0%,距离人类水平仍有显著差距。