AI 精选动态智能评分 62

CMU 新基准 Odysseys

来源: twitter关注列表

作者: Gregor Zunic (@gregpr07)

发布于: 2026-05-26

收录于: 2026-05-27

AI 推荐理由

可重点查看该基准的任务构成与评测方式，因为它直接给出了 WebWright 61% 与 BrowserCode+Opus 4.7 70% 的对比，适合判断当前代理能力差距。

核心解读

CMU 发布了新基准“Odysseys”，用于评测更困难的任务。Alexander Yue 在引用原帖中表示，Microsoft 近期用 auto-eval agent WebWright 在该榜单上以 61% 领跑，而他今天用 BrowserCode 和 Opus 4.7 跑出了 70%。

#基准测试#开发者工具#智能体