AI 精选动态智能评分 74

Why we no longer evaluate SWE-bench Verified

来源: OpanAI-Research

发布于: 2026-02-23

收录于: 2026-05-21

AI 推荐理由

这篇文章不仅说明了 SWE-bench Verified 的失效原因，还给出了 74.9% 到 80.9% 的近 6 个月增幅、27.6% 审计子集和 59.4% 有问题题目的具体证据，值得关注评测口径是否需要切换。

核心解读

OpenAI 表示，自 2024 年 8 月发布 SWE-bench Verified 以来，该基准已被行业广泛用于衡量模型在自主软件工程任务上的进展，但其最近 6 个月的成绩只从 74.9% 提升到 80.9%。OpenAI 进一步分析了一个 27.6% 的子集，发现至少 59.4% 的审计题目存在测试用例或题目描述问题，导致功能正确的提交也可能被判错；同时，OpenAI 发现其测试过的所有 frontier models 都能复现 gold patch 或题面细节，说明模型可能在训练中见过这些题目或解法。基于这些问题，OpenAI 停止报告 SWE-bench Verified 分数，并建议其他模型开发者也停止使用该指标，转而报告 SWE-bench Pro，同时称将构建新的、未污染的代码能力评测。

#基准测试#研究突破#行业动态

阅读原始全文