返回精选
AI 精选动态 智能评分 72

FrontierCode 编码基准正式发布

来源: twitter关注列表
作者: swyx (@swyx)
发布于: 2026-06-09
收录于: 2026-06-09
AI 推荐理由
建议阅读原文深入了解 AI 编码三大时代演变和 FC 各难度层级的模型表现,为理解当前 Agentic 编程发展趋势提供重要参考。
核心解读
METR_Evals 发布 FrontierCode 基准,用于评测 AI 编程能力,包含 3000+ 评分标准和 1000+ 小时维护人员验证的软件工程任务。Opus 4.8 在 FC Diamond 上得分为 13.8%,GPT 5.5 和 Opus 4.8 均未显著提升。相比 HumanEval 和 SWEBench,FrontierCode 聚焦可维护代码质量。历史数据显示 Opus 模型在 2025 年底 4 个月内从 41% 提升至 74%,反映 AI 编码能力快速进步。
#基准测试#模型发布#行业动态