AI 精选动态智能评分 69

FrontierCode

来源: twitter关注列表

作者: meng shao (@shao__meng)

发布于: 2026-06-09

收录于: 2026-06-09

AI 推荐理由

这套评测把“能跑”与“可合并”拆开，并给出了高难度子集、blocker 规则和多维 grading 方法，适合关注代码评测和 agent 代码能力边界的人直接对照自己的测试体系。

核心解读

Cognition 推出 FrontierCode，用于评估代码是否达到“可合并”的高质量标准，而不只是能通过单元测试。该评测集包含 150 个任务，来自 36 个旗舰开源仓库，由 20+ 维护者参与、每个任务投入 40+ 小时，并分为 Extended（150）、Main（100 最难）和 Diamond（50 最难）三层。评测采用 pass rate 和 score 两个指标，并从行为正确性、回归安全、机械整洁、测试质量、Scope 纪律和代码质量六个维度衡量；结果显示 Claude Opus 4.8 在 Diamond 仅 13.4%，GPT-5.5 为 6.3%，Gemini 3.1 Pro 为 4.7%，最佳开源 Kimi K2.6 仅 3.8%，而 GPT-5.5 约用 Opus 1/4 的 token。

#基准测试#模型#开发者工具

阅读原始全文