AI 精选动态
智能评分 74
FrontierCode
AI 推荐理由
这条信息同时给出了评测设计方法、任务投入成本和模型在高难子集上的具体成绩,适合用来判断代码模型是否从“能跑”走向“可维护”。核心解读
Cognition 发布了 FrontierCode 编码评测,称每个任务由领先的开源维护者投入 40+ 小时完成,总计覆盖 1000+ 小时的、经过维护者验证的软件工程工作。该评测包含 3000+ 条 rubric,用于评估代码质量并防范其他基准中常见的 reward hacking;其中 FC Diamond 的难度很高,Opus 4.8 的得分只有 13.8%。Cognition 还给出编码评测演进:2021 年是 HumanEval(Autocomplete),2023 年是 SWEBench 和 TerminalBench(Passing Tests),到 2026 年转向 FrontierCode(Maintainable Code);他们补充称 FrontierCode Extended 中最容易的三分之一任务在 2025 年末被快速攻克,Opus 的通过率在 4 个月内从 41% 升至 74%。