返回精选
AI 精选动态 智能评分 74

FrontierCode

来源: twitter关注列表
作者: swyx (@swyx)
发布于: 2026-06-08
收录于: 2026-06-08
AI 推荐理由
这条信息同时给出了评测设计方法、任务投入成本和模型在高难子集上的具体成绩,适合用来判断代码模型是否从“能跑”走向“可维护”。
核心解读
Cognition 发布了 FrontierCode 编码评测,称每个任务由领先的开源维护者投入 40+ 小时完成,总计覆盖 1000+ 小时的、经过维护者验证的软件工程工作。该评测包含 3000+ 条 rubric,用于评估代码质量并防范其他基准中常见的 reward hacking;其中 FC Diamond 的难度很高,Opus 4.8 的得分只有 13.8%。Cognition 还给出编码评测演进:2021 年是 HumanEval(Autocomplete),2023 年是 SWEBench 和 TerminalBench(Passing Tests),到 2026 年转向 FrontierCode(Maintainable Code);他们补充称 FrontierCode Extended 中最容易的三分之一任务在 2025 年末被快速攻克,Opus 的通过率在 4 个月内从 41% 升至 74%。
#基准测试#模型发布#开发者工具