AI 精选动态智能评分 74

FrontierCode

来源: twitter关注列表

作者: swyx (@swyx)

发布于: 2026-06-08

收录于: 2026-06-08

AI 推荐理由

这条信息同时给出了评测设计方法、任务投入成本和模型在高难子集上的具体成绩，适合用来判断代码模型是否从“能跑”走向“可维护”。

核心解读

Cognition 发布了 FrontierCode 编码评测，称每个任务由领先的开源维护者投入 40+ 小时完成，总计覆盖 1000+ 小时的、经过维护者验证的软件工程工作。该评测包含 3000+ 条 rubric，用于评估代码质量并防范其他基准中常见的 reward hacking；其中 FC Diamond 的难度很高，Opus 4.8 的得分只有 13.8%。Cognition 还给出编码评测演进：2021 年是 HumanEval（Autocomplete），2023 年是 SWEBench 和 TerminalBench（Passing Tests），到 2026 年转向 FrontierCode（Maintainable Code）；他们补充称 FrontierCode Extended 中最容易的三分之一任务在 2025 年末被快速攻克，Opus 的通过率在 4 个月内从 41% 升至 74%。

#基准测试#模型发布#开发者工具

阅读原始全文