AI 精选动态
智能评分 66
SWE-rebench 更新
AI 推荐理由
这次更新同时给出了更高频的 live benchmark 设计和按价格/任务输出的完整榜单,适合关注代码智能体选型与成本性能比的人直接看原榜单。核心解读
Ibragim (@ibragim_bad) 更新了 live benchmark SWE-rebench 的 3 月到 5 月版本,新增了更多 fresh 和 complex 的 GitHub issue+PR 任务,并对每个 model/scaffold 运行了 110 个任务、每个任务重复 5 次。该基准计划每两个月更新一次任务集,并在模型更新之间穿插更新。最新结果中,GPT-5.5 xhigh 以 62.7% resolved 和 70.0% pass@5 排名第 1;Cursor 搭配 Composer 2.5 被描述为约比 Claude Code 和 Codex 便宜 8 倍,且分数高于 open-weight models。