AI 精选动态智能评分 76

FrontierCode 进展

来源: twitter关注列表

作者: swyx (@swyx)

发布于: 2026-06-09

收录于: 2026-06-09

AI 推荐理由

新增了 FrontierCode 的分层难度、3000+ 细则和 Opus 4.8 仅 13.8% 的具体结果，适合用来判断后续代码模型与评测体系的变化方向。

核心解读

swyx 转引 METR_Evals 的帖子称，FrontierCode 评测发现 SWEBench 结果中有一半以上是“不可合并”的低质量输出，FrontierCode 覆盖了 1000+ 小时由维护者验证的软件工程工作，并包含 3000+ 条评分细则来约束代码质量和对抗基准投机。帖子还称 FrontierCode Diamond 难度很高，Opus 4.8 的得分只有 13.8%。作者补充说，FC Extended 中最容易的三分之一任务在 2025 年底被快速解决，Opus 在 4 个月内从 41% 提升到 74%，并将这一变化概括为 2026 年从“自动补全”到“可维护代码”的第三代 AI 编程基准迁移。

#基准测试#研究#大模型

阅读原始全文