AI 精选动态
智能评分 62
CMU 新基准 Odysseys
AI 推荐理由
可重点查看该基准的任务构成与评测方式,因为它直接给出了 WebWright 61% 与 BrowserCode+Opus 4.7 70% 的对比,适合判断当前代理能力差距。核心解读
CMU 发布了新基准“Odysseys”,用于评测更困难的任务。Alexander Yue 在引用原帖中表示,Microsoft 近期用 auto-eval agent WebWright 在该榜单上以 61% 领跑,而他今天用 BrowserCode 和 Opus 4.7 跑出了 70%。