AI 精选动态
智能评分 72
Datacurve 发布 DeepSWE
AI 推荐理由
该基准把“是否真能完成长链路编码任务”与传统刷榜分数区分开来,适合用来复核 agentic coding 模型的真实差距。核心解读
Datacurve 发布 DeepSWE,一个更难的长周期软件工程基准,用于区分领先模型在真实代理式编码任务中的能力差异。原帖给出的结果显示,GPT-5.5 得分 70%,GPT-5.4 得分 56%,Claude Opus 4.7 得分 54%,且在公共排行榜上原本较接近的模型在该基准上出现更明显分化。DeepSWE 相比旧编码基准采用原创任务而非复用 public GitHub issues 和 PR,提示更短,为 SWE-bench Pro 的一半,但解题通常需要 5.5 倍更多代码和约 2 倍输出 token;评测也不再仅依赖单一 merged PR 的测试,而是检查请求行为是否真正实现,即使模型用不同但有效的方式完成。