AI 精选动态
智能评分 69
FrontierCode
AI 推荐理由
这套评测把“能跑”与“可合并”拆开,并给出了高难度子集、blocker 规则和多维 grading 方法,适合关注代码评测和 agent 代码能力边界的人直接对照自己的测试体系。核心解读
Cognition 推出 FrontierCode,用于评估代码是否达到“可合并”的高质量标准,而不只是能通过单元测试。该评测集包含 150 个任务,来自 36 个旗舰开源仓库,由 20+ 维护者参与、每个任务投入 40+ 小时,并分为 Extended(150)、Main(100 最难)和 Diamond(50 最难)三层。评测采用 pass rate 和 score 两个指标,并从行为正确性、回归安全、机械整洁、测试质量、Scope 纪律和代码质量六个维度衡量;结果显示 Claude Opus 4.8 在 Diamond 仅 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 为 4.7%,最佳开源 Kimi K2.6 仅 3.8%,而 GPT-5.5 约用 Opus 1/4 的 token。