返回精选
AI 精选动态 智能评分 76

FrontierCode 进展

来源: twitter关注列表
作者: swyx (@swyx)
发布于: 2026-06-09
收录于: 2026-06-09
AI 推荐理由
新增了 FrontierCode 的分层难度、3000+ 细则和 Opus 4.8 仅 13.8% 的具体结果,适合用来判断后续代码模型与评测体系的变化方向。
核心解读
swyx 转引 METR_Evals 的帖子称,FrontierCode 评测发现 SWEBench 结果中有一半以上是“不可合并”的低质量输出,FrontierCode 覆盖了 1000+ 小时由维护者验证的软件工程工作,并包含 3000+ 条评分细则来约束代码质量和对抗基准投机。帖子还称 FrontierCode Diamond 难度很高,Opus 4.8 的得分只有 13.8%。作者补充说,FC Extended 中最容易的三分之一任务在 2025 年底被快速解决,Opus 在 4 个月内从 41% 提升到 74%,并将这一变化概括为 2026 年从“自动补全”到“可维护代码”的第三代 AI 编程基准迁移。
#基准测试#研究#大模型