AI 精选动态智能评分 72

FrontierCode 编码基准正式发布

来源: twitter关注列表

作者: swyx (@swyx)

发布于: 2026-06-09

收录于: 2026-06-09

AI 推荐理由

建议阅读原文深入了解 AI 编码三大时代演变和 FC 各难度层级的模型表现，为理解当前 Agentic 编程发展趋势提供重要参考。

核心解读

METR_Evals 发布 FrontierCode 基准，用于评测 AI 编程能力，包含 3000+ 评分标准和 1000+ 小时维护人员验证的软件工程任务。Opus 4.8 在 FC Diamond 上得分为 13.8%，GPT 5.5 和 Opus 4.8 均未显著提升。相比 HumanEval 和 SWEBench，FrontierCode 聚焦可维护代码质量。历史数据显示 Opus 模型在 2025 年底 4 个月内从 41% 提升至 74%，反映 AI 编码能力快速进步。

#基准测试#模型发布#行业动态

阅读原始全文