AI 精选动态智能评分 72

Datacurve 发布 DeepSWE

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

该基准把“是否真能完成长链路编码任务”与传统刷榜分数区分开来，适合用来复核 agentic coding 模型的真实差距。

核心解读

Datacurve 发布 DeepSWE，一个更难的长周期软件工程基准，用于区分领先模型在真实代理式编码任务中的能力差异。原帖给出的结果显示，GPT-5.5 得分 70%，GPT-5.4 得分 56%，Claude Opus 4.7 得分 54%，且在公共排行榜上原本较接近的模型在该基准上出现更明显分化。DeepSWE 相比旧编码基准采用原创任务而非复用 public GitHub issues 和 PR，提示更短，为 SWE-bench Pro 的一半，但解题通常需要 5.5 倍更多代码和约 2 倍输出 token；评测也不再仅依赖单一 merged PR 的测试，而是检查请求行为是否真正实现，即使模型用不同但有效的方式完成。

#基准测试#开发者工具#模型发布

阅读原始全文