AI 精选动态智能评分 66

SWE-rebench 更新

来源: twitter关注列表

作者: Peter Steinberger 🦞 (@steipete)

发布于: 2026-05-27

收录于: 2026-05-28

AI 推荐理由

这次更新同时给出了更高频的 live benchmark 设计和按价格/任务输出的完整榜单，适合关注代码智能体选型与成本性能比的人直接看原榜单。

核心解读

Ibragim (@ibragim_bad) 更新了 live benchmark SWE-rebench 的 3 月到 5 月版本，新增了更多 fresh 和 complex 的 GitHub issue+PR 任务，并对每个 model/scaffold 运行了 110 个任务、每个任务重复 5 次。该基准计划每两个月更新一次任务集，并在模型更新之间穿插更新。最新结果中，GPT-5.5 xhigh 以 62.7% resolved 和 70.0% pass@5 排名第 1；Cursor 搭配 Composer 2.5 被描述为约比 Claude Code 和 Codex 便宜 8 倍，且分数高于 open-weight models。

#基准测试#智能体#开发者工具

阅读原始全文