AI 精选动态
智能评分 74
Why we no longer evaluate SWE-bench Verified
AI 推荐理由
这篇文章不仅说明了 SWE-bench Verified 的失效原因,还给出了 74.9% 到 80.9% 的近 6 个月增幅、27.6% 审计子集和 59.4% 有问题题目的具体证据,值得关注评测口径是否需要切换。核心解读
OpenAI 表示,自 2024 年 8 月发布 SWE-bench Verified 以来,该基准已被行业广泛用于衡量模型在自主软件工程任务上的进展,但其最近 6 个月的成绩只从 74.9% 提升到 80.9%。OpenAI 进一步分析了一个 27.6% 的子集,发现至少 59.4% 的审计题目存在测试用例或题目描述问题,导致功能正确的提交也可能被判错;同时,OpenAI 发现其测试过的所有 frontier models 都能复现 gold patch 或题面细节,说明模型可能在训练中见过这些题目或解法。基于这些问题,OpenAI 停止报告 SWE-bench Verified 分数,并建议其他模型开发者也停止使用该指标,转而报告 SWE-bench Pro,同时称将构建新的、未污染的代码能力评测。