返回精选
AI 精选动态 智能评分 62

CMU 新基准 Odysseys

来源: twitter关注列表
作者: Gregor Zunic (@gregpr07)
发布于: 2026-05-26
收录于: 2026-05-27
AI 推荐理由
可重点查看该基准的任务构成与评测方式,因为它直接给出了 WebWright 61% 与 BrowserCode+Opus 4.7 70% 的对比,适合判断当前代理能力差距。
核心解读
CMU 发布了新基准“Odysseys”,用于评测更困难的任务。Alexander Yue 在引用原帖中表示,Microsoft 近期用 auto-eval agent WebWright 在该榜单上以 61% 领跑,而他今天用 BrowserCode 和 Opus 4.7 跑出了 70%。
#基准测试#开发者工具#智能体