返回精选
AI 精选动态 智能评分 66

SWE-rebench 更新

来源: twitter关注列表
作者: Peter Steinberger 🦞 (@steipete)
发布于: 2026-05-27
收录于: 2026-05-28
AI 推荐理由
这次更新同时给出了更高频的 live benchmark 设计和按价格/任务输出的完整榜单,适合关注代码智能体选型与成本性能比的人直接看原榜单。
核心解读
Ibragim (@ibragim_bad) 更新了 live benchmark SWE-rebench 的 3 月到 5 月版本,新增了更多 fresh 和 complex 的 GitHub issue+PR 任务,并对每个 model/scaffold 运行了 110 个任务、每个任务重复 5 次。该基准计划每两个月更新一次任务集,并在模型更新之间穿插更新。最新结果中,GPT-5.5 xhigh 以 62.7% resolved 和 70.0% pass@5 排名第 1;Cursor 搭配 Composer 2.5 被描述为约比 Claude Code 和 Codex 便宜 8 倍,且分数高于 open-weight models。
#基准测试#智能体#开发者工具